Die Mona Lisa lernt sprechen

Es wird immer leichter, Videosequenzen zu fälschen: Wissenschaftler aus Russland brauchen dafür nur noch ein einziges Bild.

Mona Lisa, wie sie leibt und lebt – russische IT-Spezialisten haben sie zum Leben erweckt.

Mona Lisa, wie sie leibt und lebt – russische IT-Spezialisten haben sie zum Leben erweckt. Bild: Screenshot Youtube / Egor Zakharov

Feedback

Tragen Sie mit Hinweisen zu diesem Artikel bei oder melden Sie uns Fehler.

Können wir unseren Augen noch trauen? Immer öfter fordern Videos, die mithilfe künstlicher Intelligenz erstellt wurden und nicht das zeigen, was sie vorgeben, unsere Wahrnehmung heraus. Ob Hollywoodschauspieler, Ex-Präsidenten oder Roger Federer: Für sogenannte Deepfakes wird entweder das Gesicht einer Person digital auf den Körper einer anderen transferiert oder das Gesicht vollzieht Bewegungen, die nur am Rechner entstanden sind. Als Referenz dazu dienen Fotografien oder Videosequenzen; bislang war dafür eine grössere Menge an Daten notwendig.

Wissenschaftler des Samsung AI Center in Moskau und des ebenfalls dort ansässigen Skolkovo Institute of Technology and Science (kurz Skoltech) haben jetzt einen neuen Weg eingeschlagen. Ihnen ist es gelungen, Deepfakes mit minimalem Input zu generieren, teilweise sogar nur mit einem einzigen Bild als Vorlage. So bringen sie nicht nur echte, menschliche Modelle in am Computer erzeugte Bewegung, sondern erwecken alte Fotografien von Marilyn Monroe oder Fjodor Dostojewski oder sogar Gemälde wie die «Mona Lisa» zum Leben.

Der Trick: Die Forscher bedienen sich einer Datenbank mit über 7000 sogenannten Talking Heads, also menschlichen Köpfen, die in kurzen Videos sprechen und entsprechende Bewegungsabfolgen durchführen. Ihr Algorithmus erfasst dabei «Landmarks», wie sie in einem typischen Gesicht zu erwarten sind: Wangenknochen, Nase, Mund, Augen und Augenbrauen. Anhand dieser Merkmale aus dem Vorlagenbild (Monroe, Dostojewski etc.) sucht die Software unter den 7000 Köpfen diejenigen mit ähnlichen «Landmarks» heraus. Aufgrund dieser Informationen extrapoliert sie, wie eine Bewegung der Schauspielerin oder des russischen Schriftstellers – der vor der Erfindung der Filmkamera starb – aussehen könnte.

Weltberühmte Gemälde werden auf einmal beweglich

Natürlich ist das eine stark vereinfachte Darstellung dessen, was das Forschergespann Egor Zakharov, Aliaksandra Shysheya, Egor Burkov und Victor Lempitsky in seinem 19-seitigen Aufsatz mit dem Titel «Few-Shot Adversarial Learning of Realistic Neural Talking Head Models» ausführt. Und selbstverständlich ist das, was mit nur einem einzigen Bild als Vorlage animiert werden kann, für das menschliche Auge schnell als Fake entlarvt. Trotzdem ist es faszinierend, wenn man alte Fotografien oder weltberühmte Gemälde auf einmal in Bewegung gesetzt wahrnimmt.

Und das Ergebnis wird stark verfeinert, wenn die Software mehr Input erhält: Gibt es statt nur eines 8 oder gar 32 Bilder eines Kopfes, wird die simulierte Darstellung der Bewegung exponentiell realistischer, wie die Wissenschaftler aufzeigen.

Es ist nur eine Frage der Zeit, bis das Ergebnis realistisch aussieht

Anwendungsbereiche für ihre Ergebnisse sehen die Forscher unter anderem bei Avataren beispielsweise für Videokonferenzen oder Computerspiele, aber auch im Special-Effects-Bereich. Dabei macht ihnen noch das zu schaffen, was «Uncanny Valley Effect» oder «Akzeptanzlücke» genannt wird: Die menschliche Wahrnehmung ist sehr sensibel, wenn es um kleine Fehler in der Darstellung von beispielsweise Gesichtern geht. Auch kleinste Unstimmigkeiten werden wahrgenommen. Doch wohl auch hier ist es nur eine Frage der Zeit, bis die nötige Feinjustierung (und die Rechenleistung) ausreichend fortgeschritten ist, um diese neue Form von Deepfakes immer realistischer erscheinen zu lassen.

Welche Gefahren sogenannte Deepfakes bergen, zeigt SRF-Datenjournalist Timo Grossenbacher im Video.

Das birgt natürlich auch Gefahren, wenn beispielsweise Prominente oder Politiker kompromittiert werden sollen. Ursprünglich stammt die Idee des Deepfake aus einer Subkultur der Pornobranche: Mithilfe der neuen Technik konnte man realistischer die Köpfe von Celebrities auf die Körper von Pornodarstellern montieren. Kritiker der Technologie befürchten, dass sie dazu missbraucht werden könnte, um Politikern Dinge in den Mund zu legen, die sie nie gesagt hätten. Denn bei Deepfakes geht es nicht nur ums Bild, sondern auch um den Ton. Wer weiss, vielleicht spricht – und das wäre dann ein guter Ausgang – die Mona Lisa eines Tages ja wirklich zu uns.

Erstellt: 26.05.2019, 18:44 Uhr

Artikel zum Thema

Erschreckend echt

Ein Programm ermöglicht die fast perfekte Illusion: Deepfakes sind täuschend echte Videomanipulationen. Mehr...

Jetzt kommt ein Gegengift gegen Fake-Videos

Gefälschte Videos drohen die Wahrheit im Internet endgültig zu begraben. Weltweit vernetzte Computer-Nerds wollen das verhindern. Mehr...

Fake News waren erst der Anfang

Der amerikanische IT-Spezialist Aviv Ovadya malt ein düsteres Bild der digitalen Zukunft. Mehr...

Die Redaktion auf Twitter

Stets informiert und aktuell. Folgen Sie uns auf dem Kurznachrichtendienst.

Kommentare

Weiterbildung

Gamen in der Schule

Die Schule bereitet Kinder auf die Arbeitswelt vor. Das Rüstzeug soll auch spielerisch vermittelt werden.

Die Welt in Bildern

Eine fast aussterbende Tradition: Tänzer führen den Thengul-Tanz während der 74. Indonesischen Unabhängigkeitsfeier im Präsidentenpalast in Jakarta, Indonesien vor. (17. August 2019)
(Bild: Antara Foto/Wahyu Putro) Mehr...