Künstliche Intelligenz in der Sprachsynthese: Noch viel Verbesserungspotenzial

0

Im Bereich der KI-Stimmen gibt es viele Anbieter, die behaupten, dass ihre künstlichen Stimmen nicht von echten Stimmen zu unterscheiden sind. Allerdings zeigt sich bei genauerem Hinhören, dass die KI-Stimmen, wie zum Beispiel „Adam“, einen künstlichen und monotonen Klang haben. Dies liegt daran, dass Künstliche Intelligenz und maschinelles Lernen zwar die Fähigkeit besitzen, einen Text vorzulesen, aber Schwierigkeiten haben, Betonungen und Emotionen passend zum Inhalt anzupassen.

KI-Stimmen: Fehlende Intelligenz, aber realistische Simulation von Stimmen

Obwohl Künstliche Intelligenz (KI) oft als Etikettenschwindel bezeichnet wird, ist die treffendere Bezeichnung wohl eher „maschinelles Lernen“. Die gängigen Sprachmodelle haben keine echte Intelligenz, sondern sind darauf trainiert, Stimmen durch die Analyse von Tausenden Stunden Audiomaterial zu simulieren. Dies ermöglicht es ihnen, Texte vorzulesen, doch sie haben Schwierigkeiten, die richtige Diktion, Betonung und Emotionen zu erfassen und dem Text anzupassen.

Die aktuelle Fähigkeit von KI-Stimmen besteht darin, einen Text vorzulesen. Allerdings können sie Betonungen und Emotionen nicht dem Inhalt entsprechend anpassen. Daher transportieren KI-Stimmen lediglich den reinen Inhalt eines Textes, ohne ihn mit angemessener Betonung und Gefühlen zu versehen. Dies führt zu einem monotonen und künstlichen Klang. Das Problem liegt in der Diktion und Tonalität, da die KI-Stimmen Schwierigkeiten haben, den gesprochenen Text richtig zu interpretieren.

Ein Mangel an echtem Textverständnis ist einer der Hauptgründe, warum künstliche Intelligenz (KI) Schwierigkeiten hat. KI hat keine persönlichen Erfahrungen, die sich auf die Interpretation eines Textes auswirken könnten. Dies wird besonders deutlich anhand des Beispiels, dass der einfache Satz „Wie siehst du denn aus?“ je nach Kontext verschiedene Emotionen erfordert. Zum Beispiel kann Empörung entstehen, wenn der Protagonist in Shorts und Adiletten zum Opernabend erscheint, oder Sorge, wenn der Darsteller blass und mit blutunterlaufenen Augen vor der Oper steht.

Künstliche Intelligenz (KI) ist derzeit nicht in der Lage, den sogenannten Subtext eines Textes darzustellen. Der Subtext bezieht sich auf die indirekte Bedeutung eines Textes, die erst durch die richtige Betonung verdeutlicht wird. Sogar erfahrene Schauspieler und Sprecher haben Schwierigkeiten, den Subtext sofort durch ihre Stimme überzeugend zu transportieren. In solchen Fällen ist die Hilfe eines Regisseurs unerlässlich.

Ein Problem bei KI-Stimmen ist, dass sie Schwierigkeiten haben, komplexe Regieanweisungen umzusetzen. Nehmen wir an, Sie möchten einer KI-Stimme sagen: „Sei etwas abgehoben, aber immer noch nahbar“. Die KI-Stimme wird möglicherweise Schwierigkeiten haben, die richtige Balance zwischen diesen beiden Anforderungen zu finden. Darüber hinaus können KI-Stimmen den Abschluss eines Textes nicht in Echtzeit anpassen, was zu inkonsistenten Ergebnissen führen kann.

Trotz der fortschreitenden Entwicklung von KI-Stimmen sieht Hierstetter immer noch Hürden, die nicht bald überwunden werden können. Es ist sicher, dass es Fortschritte geben wird und die Stimmen natürlicher klingen werden. Allerdings bleibt die Problematik von falschen oder gar fehlenden Betonungen bestehen, was vor allem bei längeren Texten zu einem eintönigen und unnatürlichen Klang führen kann.

Das Training von Sprachmodellen mit Audiomaterial, für das keine ausreichenden Verwertungsrechte vorliegen, stellt eine Gefahr dar. Ein Beispiel hierfür ist der Fall von Bev Standing, einer kanadischen Sprecherin, deren Stimme plötzlich in TikTok-Videos auftauchte. Standing hat TikTok erfolgreich in den USA verklagt, da die Verwendung ihrer Stimme ohne ihre Zustimmung erfolgte. Es ist daher wichtig, sicherzustellen, dass bei der Verwendung von KI-Stimmen die entsprechenden Rechte eingeholt wurden, um mögliche rechtliche Konsequenzen zu vermeiden.

Seit 15 Jahren bietet bodalgo.com eine effiziente Online-Casting-Plattform für Unternehmen. Sie ermöglicht die Suche nach passenden Stimmen für verschiedene Projekte wie Werbung, E-Learning und Image-Filme. Mit einer beeindruckenden Zahl von fast 60.000 abgewickelten Castings hat sich die Plattform einen Namen in der Branche gemacht.

Für die Plattform bodalgo.com ist Künstliche Intelligenz (KI) in Bezug auf die Erzeugung von Stimmen kein relevantes Thema für die Zukunft. Bei bodalgoScripta wird jedoch bereits KI erfolgreich eingesetzt, beispielsweise für die Transkription von Videos und Audios. Hier zeigt KI bereits hervorragende Ergebnisse. Dennoch werden KI-Stimmen noch für viele Jahre keine ernsthafte Konkurrenz für professionelle Sprecher sein.

In der Regel verzichten Produktionsstudios auf den Einsatz von künstlichen Stimmen und setzen stattdessen auf echte Sprecher. Es gibt jedoch interessante Ausnahmen, wie zum Beispiel bei den neuen Folgen von Pumuckl. Hier wurde die Stimme des Synchronsprechers Maxi Schafroth mithilfe von KI so modifiziert, dass sie dem verstorbenen Hans Clarin ähnelt, der dem beliebten Kobold Pumuckl 30 Jahre lang seine Stimme lieh.

Aktuell können KI-Stimmen noch nicht mit den Vorteilen professioneller Sprecher mithalten. Sie sind nicht in der Lage, Texte richtig zu interpretieren und Betonungen sowie Emotionen entsprechend anzupassen, was zu einem monotonen und unnatürlich klingenden Ergebnis führt. Zudem fehlt ihnen das echte Textverständnis und die Fähigkeit, den Subtext eines Textes zu vermitteln. Trotz einiger Fortschritte in der Entwicklung von KI-Stimmen sind sie vorerst keine ernsthafte Konkurrenz für professionelle Sprecher.

Lassen Sie eine Antwort hier