Hörbuchproduktion mit KI – wieviel Mensch braucht es noch?

Avatar-Foto
Chris Kling
Inhalt
Die Audiowelt steht vor einem tiefgreifenden Wandel: Während Künstliche Intelligenz in nahezu allen Branchen immer mehr an Bedeutung gewinnt, ist auch die Audio- und Medienlandschaft in den letzten Jahren massiv von dieser Entwicklung geprägt worden.

Dieser Artikel ist zuerst im Channel audio@media des Digital Publishing Report erschienen.

Die Möglichkeit, Texte durch Text-to-Speech-(TTs)-Engines synthetisch vertonen zu lassen, ist inzwischen so ausgereift, dass künstliche Stimmen zunehmend auch in der Hörbuchbranche als Konkurrenz zu menschlichen Stimmen wahrgenommen werden. Diese Fortschritte eröffnen neue Möglichkeiten, werfen aber zugleich tiefgreifende Fragen auf: Wird von Menschen gesprochener Content bald zur Ausnahme? Es gibt gute Gründe anzunehmen, dass dies nicht passiert und TTS sich in der üblichen Store-Struktur womöglich gar nicht durchsetzt.

Revolution und Risiko: Die Audiobranche im Zwiespalt

Seit dem vergangenen Jahr erleben wir eine rasante Entwicklung in Bezug auf Künstliche Intelligenz und die damit verbundenen Technologien. Produkte und Neugründungen mit KI-relevanten Geschäftsmodellen entwickeln sich in rasanter Geschwindigkeit. Die Verlags- und Medienbranche ist mittendrin: Insbesondere generative KI-Anwendungen stehen im Mittelpunkt vieler Debatten zu Grenzen, Moral und Urheberrecht. Während der Markt für Audio-Content wie Hörbücher, Hörspiele und Podcasts in den letzten Jahren immer neue Rekorde bei Hörerzahlen sowie Umsatz verbuchen konnte, entstanden bei manchen Marktteilnehmern Unsicherheiten und Ängste, dass diese neue Technologie sich negativ auf die Entwicklung ihres Geschäfts auswirken könne. Führen synthetisch gesprochene Audioinhalte durch Text-To-Speech (TTS) schon bald dazu, dass menschlich gesprochene Inhalte zum Anachronismus oder zumindest zum Nischenprodukt werden?

Diese Frage beschäftigt viele in der Branche, seien es Sprecher und Sprecherinnen, Verlage oder Produktionshäuser und Studios. Diese Sorge ist nicht unbegründet: Die technischen Fortschritte in den letzten Monaten waren rasant. Die neuesten TTS-Engines sind in der Lage, Tonalität und Kontext eines Textes zu erfassen und Stimmen zu erzeugen, die zunehmend natürlicher wirken. Die Technologie ist inzwischen so weit, dass sie selbst bei komplexeren Texten Tonlagen und Betonungen anpassen kann.

Die neuesten TTS-Engines sind in der Lage, Tonalität und Kontext eines Textes zu erfassen und Stimmen zu erzeugen, die zunehmend natürlicher wirken.

Text-To-Speech: Anspruch versus Realität

In der momentanen Praxis zeigt sich jedoch, dass trotz dieser Fortschritte immer noch große Herausforderungen bestehen. Während viele Auftraggeber erwarten, dass eine KI auf Knopfdruck hochwertiges Audiomaterial erzeugt, zeigt sich in der Produktionsrealität ein anderes Bild. Wenn man ähnliche Qualitätsmaßstäbe an Fehlerlosigkeit und korrekter Aussprache ansetzt wie bei menschlichen Produktionen, ist (noch) ein erheblicher menschlicher Eingriff erforderlich, um Fehler und algorithmische Störungen zu beheben. Auch wenn andere Fehler aus menschlichen Produktionen sowie die Kosten für Sprechergagen entfallen, der hohe Bearbeitungsaufwand und die unzureichende Marktakzeptanz führen dazu, dass die Zahlungsbereitschaft für TTS-Produktionen oft hinter den tatsächlichen Kosten zurückbleibt.

Obwohl mittlerweile von vielen großen und kleinen Verlagshäusern mit TTS-Hörbuchproduktionen experimentiert wird, die über die üblichen digitalen Kanäle und Stores veröffentlicht werden, bleibt daher abzuwarten, ob sich dieses Modell durchsetzen wird. Sieht die Zukunft wirklich so aus, dass menschlich und maschinell gelesene Inhalte in den bekannten Stores miteinander konkurrieren?

Neue Player, neue Vertriebswege

Ein entscheidender Player hat nun die Tür zu einem anderen Ausspielweg weit geöffnet. Das 2022 gegründete und mittlerweile mit über 1 Mrd. USD bewertete Start-up ElevenLabs hat sich auf die Fahne geschrieben, der Erste zu sein, dessen Sprachmodell den Kontext eines ganzen Satzes verstehen und den Tonfall sowie die Emotionen der Sprache entsprechend anpassen könne. Spätestens seit der Veröffentlichung der ElevenLabs Reader App (und kurz darauf veröffentlichten, ähnlich gestrickten Mitbewerberprodukten) ist klar, dass die Technologie hier ganz andere Wege finden kann, um zum Konsumenten zu gelangen. Das Unicorn stellt mit der App eine B2C-Lösung bereit, in der die Konsumenten sich mit einem Handgriff ihre existierenden EPUB- und PDF-Dokumente vorlesen lassen können – von einer Stimme nach Wahl, in Echtzeit sowie komplett kostenlos. Die Firma umschifft damit alle herkömmlichen Produktions- und Distributionsprozesse und Kanäle sowie die gesamte Store-Struktur.

ElevenLabs umschifft mit der App alle herkömmlichen Produktions- und Distributionsprozesse und Kanäle sowie die gesamte Store-Struktur.

Das menschliche Nachjustieren und die damit verbundene Qualitätskontrolle entfällt hier freilich. Jeder Konsument kann sich nun selbst ein Bild davon machen, wie gut er mit komplett automatisiert erstellten Inhalten mitsamt ihren potenziellen Unzulänglichkeiten klarkommt. Durch die kostenfreie Bereitstellung besteht ein niedrigschwelliges Angebot, es ohne weitere Verpflichtungen auszuprobieren. Es ist sicherlich noch zu früh, um über die konsumentenseitige Marktakzeptanz zu sprechen (insbesondere auf einem qualitätsaffinen Hörbuchmarkt wie Deutschland), doch ist zu erwarten, dass gerade dieser leichte Zugang die Akzeptanz von TTS weiterhin erhöhen wird. Ich erinnere mich gut daran, dass es uns vor einigen Jahren auch noch seltsam anmutete, mit einem Telefonroboter zu sprechen oder gar mit Assistenten wie Siri oder Alexa. Genau dadurch, dass die Erwartungshaltung gegenüber kostenlosen Produkten generell niedriger ist, resultiert dies sicherlich in einer höheren Frustrationstoleranz seitens der Konsumenten.

Die Grenzen des Automaten sind die Stärken der Menschen

Welche Konsequenzen sind für den Markt für menschlich gelesene Produktionen zu erwarten? Schon vor zwei Jahren haben wir als Produktionshaus begonnen, uns mit dieser Frage zu beschäftigen. Paradoxerweise sind unsere Ängste geschrumpft, je mehr wir mit dieser neuen Technologie geforscht und experimentiert haben – dies hat uns sogar in der Konsequenz dazu bewogen, noch mehr in unsere Software- und Produktionsprozesse für menschliche Stimmen zu investieren.

Denn was die besten auf neuronalen Netzwerken basierenden Sprachmodelle momentan ausgeben, entspricht nicht unbedingt dem, was gemäß vielen wissenschaftlichen Definitionen als Kunst bzw. Kreativität bezeichnet wird. Die vielbeachtete Kognitionswissenschaftlerin Margaret Boden beispielsweise bezeichnete Kreativität als die Fähigkeit, Ideen oder Artefakte zu entwickeln, die neu, überraschend und wertvoll sind. (siehe: Margaret A. Boden (2004): The Creative Mind: Myths and Mechanisms. Routledge, London.)

Die momentan zu hörenden Ergebnisse entsprechen zwar immer mehr einem soliden Handwerk, können aber wohl schwerlich den in dieser Definition genannten Attributen gerecht werden. Während TTS eine automatisierte Reproduktion von Sprache darstellt, basiert ein ergreifender menschlicher Vortrag hingegen auf einem umfangreichen Repertoire an Ausdrucksformen und greift auf eigene Interpretationen zurück, die jenseits eines rein funktionalen Vortrags liegen. Mehr noch, die Kunst einer gelungenen Interpretation setzt Einfühlungsvermögen und Sensibilität des Sprechers gegenüber dem Werk und seinem Publikum voraus. Um dies zu illustrieren, fange ich in meiner Funktion als Gastdozent gegenüber meinen Studierenden oft an, die gleichen Inhalte im Deutschrap-Dialekt à la Haftbefehl vorzutragen. Das darauf erfolgende Gelächter ist der Beweis dafür, dass ein Gespür für kontextuelle und situative Auslegungen und Interpretationen sowie Erwartungshaltungen mit dem Konsumenten interagieren – und dies auf eine individuelle, umgebungsbezogene Art und Weise, die ein generisches neuronales Netzwerk nicht leisten kann.

Ein Gespür für den Text – aber noch wichtiger – die Zielgruppe und deren Empfindungen liegt im zentralen Kompetenzbereich eines hervorragenden Darstellers. Er greift dabei mit Feingefühl auf situationsbedingte Einflüsse zurück, die eine KI bisher nicht erfassen kann. Den Künstler zeichnet aus, dass er zum Ausdruck bringt, was viele Leute spüren, ohne die Fähigkeit zu besitzen, es ihrerseits zum Ausdruck zu bringen. Viele Hörbuchhörer erwarten daher eine Stimme, die nicht nur Worte wiedergibt, sondern die genannten Qualitäten in sich vereint. Diese Aspekte machen menschliche Sprecher unersetzlich, da sie die Erfahrung des Hörens emotional anreichern.

Systembedingt kann eine Künstliche Intelligenz nach den gängigen Funktionsweisen nur auf dem aufbauen, was durch Trainingsdaten in das System eingegeben wurde – also das erschaffen, was ein handwerklich begabter Kopist leisten kann. Das bedeutet auch, dass wir der Maschine nur beibringen können, was wir auch selbst verstehen und ausdrücken können. Anders ausgedrückt: Wenn wir davon ausgehen, dass wir alles, was uns in Kunst und Ästhetik als Menschen berührt, verstehen und vermitteln können, ist die Angst vor einer menschengemachten Maschine ein Produkt von Überheblichkeit oder zumindest einer Überschätzung der eigenen Fähigkeiten unserer Spezies.

Den Künstler zeichnet aus, dass er zum Ausdruck bringt, was viele Leute spüren, ohne die Fähigkeit zu besitzen, es ihrerseits zum Ausdruck zu bringen. Viele Hörbuchhörer erwarten daher eine Stimme, die nicht nur Worte wiedergibt, sondern die genannten Qualitäten in sich vereint.

Es gibt aber (glücklicherweise) im Verständnis unserer emotionalen Reaktionen noch viele Aspekte, die uns Rätsel aufgeben und sich noch nicht wissenschaftlich durchdringen lassen. Einigen Theorien zufolge sind Reproduktion und Mortalität die Ursache aller unserer Handlungen und Motivationen und somit Grundbaustein jeglicher künstlerischen Ästhetik. Sie motivieren uns, das Eine zu ermöglichen und das Andere zu verhindern. Solange wir außerstande sind, die Gründe hierfür in Programmcode zu konvertieren, denke ich, dass es noch für lange Zeit menschliche (Sprach-)Künstler sein werden, die die Kraft haben, uns zu inspirieren, zu berühren, zum Nachdenken anzuregen oder uns durch Krisen zu begleiten.

Solides Handwerk ist nicht genug

Bedeutet das, dass sich TTS am Markt nicht durchsetzen wird? Nein, ich glaube, dass die Technologie ihren Weg finden wird, sich in gewissen Bereichen zu etablieren. Werden wir weiterhin nur menschlich gesprochene Hörbücher auf dem Markt finden? Nur bedingt. Denn aus den Überlegungen lässt sich auch folgern, dass das Merkmal einer menschlichen Lesung allein nicht automatisch ein Garant dafür ist, dass die genannten menschlichen und künstlerischen Qualitäten vorhanden sind, die sie von dem maschinellen Vortrag differenzieren und abheben. Künstliche Intelligenz wird als Bedrohung am stärksten unter jenen Sprechern und Sprecherinnen zu spüren sein, die zwar ein solides Handwerk abliefern, aber nicht intrinsisch aus sich oder ihrer Empfindsamkeit gegenüber den feinen Nuancen des Werkes oder des Zielpublikums zu schöpfen wissen. Für jene könnte es sehr schwer werden, die maschinell erzeugte Kunst quantitativ oder qualitativ zu übertreffen. Solange TTS die Komplexität und Feinheiten menschlicher Gefühle und (sub-)kultureller Kontexte nicht vollständig erfassen kann, werden jene menschlichen Stimmen, die Empathie und Feingefühl in ihre Arbeit einfließen lassen, dennoch einen unersetzlichen Wert bieten, der weit über die bloße Wiedergabe von Text hinausgeht.

Künstliche Intelligenz wird als Bedrohung am stärksten unter jenen Sprechern und Sprecherinnen zu spüren sein, die zwar ein solides Handwerk abliefern, aber nicht intrinsisch aus sich oder ihrer Empfindsamkeit gegenüber den feinen Nuancen des Werkes oder des Zielpublikums zu schöpfen wissen.

Was die Zukunft bringt

In den kommenden Jahren werden TTS-Technologien zweifellos weitere Fortschritte verzeichnen können. Der Audio-Boom und die Nachfrage nach kostengünstigen und schnell verfügbaren Audioinhalten könnten zu einer verstärkten Akzeptanz von TTS führen, besonders für Fach- und Sachbücher. Die kürzlich lancierten Apps, die Endverbrauchern Zugang zu TTS-Tools bieten, könnten durch zunehmende Medienkonvergenz langfristig das Nutzungsverhalten der Hörer beeinflussen und TTS als Ergänzung im Hörbuchmarkt etablieren. Auch für interaktive Inhalte eröffnet diese Technologie spannende Perspektiven. Im Streaming-Zeitalter herrscht auch ein stärkerer Kostendruck: Obwohl durch das Marktwachstum der Umsatz trotz der geringeren Marge in vielen Fällen steigt, stellt TTS hier eine günstigere Alternative dar, die besonders für kleinere Produktionen von Interesse ist. 

Doch trotz dieser Entwicklungen werden menschlich erschaffene Werke weiterhin eine Schlüsselrolle spielen, besonders in Bereichen, in denen es auf emotionale Tiefe und künstlerische Qualität ankommt. Im Umkehrschluss könnte die steigende Masse an mediokren bzw. generierten Inhalten nicht sogar zu einer größeren Wertschätzung gegenüber herausragender menschlich-künstlerischer Leistung führen?

Doch trotz dieser Entwicklungen werden menschlich erschaffene Werke weiterhin eine Schlüsselrolle spielen, besonders in Bereichen, in denen es auf emotionale Tiefe und künstlerische Qualität ankommt.

Denn sind wir in der Medienbranche nicht immer auf der Suche nach dem nächsten Produkt, das berührt, sich von der Masse abhebt und für Gesprächsstoff im Freundeskreis sorgt? Eine gute Geschichte, empathisch vorgetragen mit Gefühl für Werk, Kontext und Zeitgeist, besitzt diese Kraft. Insbesondere in Kombination mit Sounddesign und Musik und neuen Formaten, die das Storytelling und die Immersivität erweitern und sich damit weiter von automatisch generierten Formaten abheben können. Die Fähigkeit, Nuancen zu interpretieren und eine nachhaltig emotionale Verbindung zum Hörer herzustellen, bleibt das exklusive Territorium des Menschen. Für die expressive Kraft des gesprochenen Wortes wird der künstlerisch feinfühlige Mensch vorerst das Maß der Dinge bleiben.

Interessiert an der Zusammenarbeit mit einem engagierten Team?

Dann melde dich und lass uns über dein Projekt sprechen!