Adobe VoCo: Das Photoshop für Audio erstellt Sprachnachrichten mit Originalstimme aus beliebigem Text

Das neue Adobe-Tool VoCo fasziniert und erschreckt die Fachwelt gleichermaßen: Es lässt beliebige Sprachaufnahmen einer Person anfertigen, wenn nur 20 Minuten Rohmaterial von ihr vorliegen. Kritiker sehen Fälschungen Tür und Tor geöffnet, Berufsstände wie Hörfunkjournalisten und Synchronsprecher fürchten um ihre Arbeitsplätze.

Das Video der Adobe-eigenen Entwicklerkonferenz ging im November um die Welt. Der Tüftler Zeyu Jin führte dem staunenden Publikum dabei das geplante neue Tool VoCo vor, kürz für Voice Conversion. Er veränderte den aufgenommenen Satz eines Sprechers…

„And, ur, I kissed my dogs and my wife“

… und veränderte ihn nachträglich in …

„And, ur, I kissed Jordan three times.“

Jordan war der Name des Moderators. Das Publikum konnte die veränderte Version nicht vom Original unterscheiden. Das Tool VoCo wirkte bei der Präsentation zwar noch etwas behäbig in der Bedienung. Das Ergebnis aber war erschreckend real:

Klar, dass ein Tool mit Eigenschaften wie Adobe VoCo ebenso fasziniert wie Unbehagen auslöst. Man kann sich und Freunden damit Worte in den Mund schieben, die sie so nie gesagt haben. Das dürfte für einige Lacher gut sein. Und man bräuchte sich im Prinzip nicht einmal mehr die Mühe zu machen zu sprechen. Einfach tippen, was man gerne sagen würde, genügt. Gerade für Berufe, in denen es viel um Sprache geht, lässt sich damit enorm viel machen.

Womit wir schon bei den Nachteilen von Adobe VoCo wären: Wenn sich so einfach Sprachaufnahmen aus Texten einer beinahe beliebigen Person erzeugen lassen, wie will man dann überhaupt noch überprüfen, was jemand wirklich gesagt hat? Man könnte Donald Trump die Worte „Wir greifen Russland an“ in den Mund legen, die Bundeskanzlerin die Einführung des bedingungslosen Grundeinkommens ankündigen lassen oder auch den besten Freund mit seiner Freundin per Sprachnachricht Schluss machen lassen. Alles im Prinzip möglich.

Was ist mit der richtigen Betonung? Seufzen, Lachen, Weinen?

Und auch Radiomoderatoren und Synchronsprecher – bräuchte man sie dann überhaupt noch? Ihre Arbeitgeber könnten auf die Idee kommen, aus ihren Mitschnitten Abdrücke für VoCo fertigen zu lassen und künftig ihre Sprachbeiträge nur noch zu texten.

Adobe will Sprachnachrichten, die mit VoCo erzeugt sind, mit einer Art Wasserzeichen ausstatten. Aber wie gut wird sich das kontrollieren lassen? Und was, wenn sich die Software hacken lässt? Dann würde die Debatte um Fake News ganz andere Dimensionen bekommen. Das Radio würde unter Generalverdacht gestellt werden.

Zumindest Radiomoderatoren und Synchronsprecher müssen in meinen Augen erst einmal keine Angst um ihre Arbeitsplätze haben. Es kommt ja nicht nur auf die Stimme an. Auch die richtige Betonung ist wichtig. Lachen, Seufzen, Weinen – wäre VoCo auch im Stande, das akkurat wiederzugeben und würde das Publikum wirklich nicht merken, wenn es die gleichen Töne wie aus einer Konserve immer wieder präsentiert bekäme? Außerdem ist VoCo eigentlich dafür gedacht, sie bei ihrer Arbeit zu unterstützen. Wortfetzen könnten so ausgetauscht werden, Verhaspler und Ähs sich schneller herausschneiden lassen.

Aber malt man sich einmal aus, wie das in Zukunft weitergehen könnte, die Technik immer weiter verbessert würde, dann wäre das schon eine ebenso verblüffende wie beunruhigende Entwicklung. Adobe zumindest überlegt, VoCo im Jahr 2017 in seine Creative Suite aufzunehmen. Der Weg, der Sprache auch noch die Mimik anzupassen, ist mit dem Schwestertool Face2Face dann übrigens nicht mehr weit.

Beitragsbild: Adobe

0 0