Uni-Projekt: Wenn Putin Grimassen schneidet

2 Min
Der Dolmetscher (vorne) gibt vor, die manipulierte Figur - in diesem Fall Wladimir Putin - macht es in Echtzeit nach. Foto: Screenshot Youtube
Der Dolmetscher (vorne) gibt vor, die manipulierte Figur - in diesem Fall Wladimir Putin - macht es in Echtzeit nach.  Foto: Screenshot Youtube

Forscher der Uni Erlangen haben ein Programm zur virtuellen Gesichtsmanipulation entwickelt. Das ulkige Erklärvideo dazu ist im Internet ein echter Hit.

George W. Bush zieht die Augenbrauen unvorteilhaft nach oben, Donald Trump verschiebt die Mundwinkel hektisch nach links und rechts und Wladimir Putin präsentiert einen komischen Froschmund: Was anmutet wie eine Ansammlung peinlicher Auftritte bekannter Politiker, ist in Wahrheit ein Video im Dienste der Wissenschaft - und mittlerweile ein echter Hit auf dem Internet-Videokanal "Youtube". Bereits über 2,3 Millionen Mal wurde der Clip bereits angeklickt.

Darin präsentieren Forscher der Friedrich-Alexander-Universität Erlangen-Nürnberg (FAU) den Prototypen einer Technologie, mit der sich Mimik und Lippenbewegungen eines Menschen erfassen und auf das Videobild eines anderen Menschen übertragen lassen. Die Idee ist nicht neu, die Filmindustrie erweckt so immer wieder Figuren zum Leben. Allerdings passiert dies nicht in Echtzeit. "In diesem Bereich sind wir die Ersten", freut sich Entwickler Justus Thies.


Therapie bei Gesichtslähmung

Ohne großen Aufwand kann man so die großen Staatsmänner komische Grimassen ziehen lassen. Bloßstellen wollen die Wissenschaftler die Herren aber nicht. "Das soll alles nicht provokativ sein. Wir können die Videos von ihren Reden aber nun mal frei verwenden", liefert Doktorand Thies eine simple Erklärung.

Das Projekt "Facial Reenactment Software" hat einen durchaus nützlichen Hintergrund. Unter anderem könnte die Technologie im Bereich von medizinischen Operationen oder als Therapiehilfe bei Gesichtslähmungen eingesetzt werden. "In diesem Fall würde das Gesicht des Patienten praktisch gespiegelt und man könnte dann seine Mimik trainieren", erklärt Thies. Ein weiteres Einsatzgebiet könnte laut des 27-Jährigen das Dolmetschen sein.

Freilich sehen Thies und seine Kollegen auch das Problem eines möglichen Missbrauchs. Beispielsweise denkt der Wissenschaftler an den Bereich Mobbing unter Schülern, wenn die Software frei verfügbar wäre. Hier will man an der Uni Erlangen aber gegensteuern. "An einer kommerziellen Verbreitung sind wir nicht interessiert", sagt Thies. Aus der Fülle der Anfragen - auch Hollywood soll schon angeklopft haben - werde man deshalb genau herausfiltern, mit wem man in Zukunft zusammenarbeiten wird und mit wem nicht.


User sind erschrocken

Die Möglichkeit, Fotos und Videos nachträglich zu bearbeiten, existiert schon länger. Das, so Thies, habe zum Beispiel das "ausgezeichnete" Varoufakis-Video des Satirikers Jan Böhmermann gezeigt. Das Erklärvideo der Forscher soll deshalb auch dazu beitragen, die Nutzer bei diesem Thema stärker zu sensibilisieren.
Das scheint auch zu funktionieren. Denn - das zeigen die vielen Kommentare - wirken die komischen Grimassen auf viele nur anfangs komisch. "Die User sind dann schnell erschrocken, dass so etwas möglich ist", sagt der Informatik-Professor Marc Stamminger.

Wie sehr dem Team der Uni Erlangen das Thema Manipulation am Herzen liegt, zeigt ein Blick in die Zukunft: Eine der nächsten Doktorarbeiten am Lehrstuhl für Graphische Datenverabreitung wird sich mit dem Aufdecken von Videofälschungen befassen.


So funktioniert die Technologie

Die Technologie haben die Forscher der FAU zusammen mit Partnern der Universität Stanford und des Max-Planck-Instituts für Informatik in Saarbrücken entwickelt. Das Programm erkennt dabei Mimik und Lippenbewegungen eines Menschen in einem Video und überträgt diese in Echtzeit auf das Videobild eines anderen. Die Technik ist laut der Forscher allerdings noch verbesserungsfähig. "Noch gelingt es uns nicht, feine Mimik zu übertragen", sagt Justus Thies. Deutlichere Bewegungen funktionieren schon recht gut.

Zunächst wird das Gesicht des Sprechers aus drei Richtungen fotografiert. Dabei wird die Geometrie des Gesichtes, also zum Beispiel die Wölbung von Nase und Stirn, aber auch die Textur (etwa Narben oder Leberflecken) erfasst. Anschließend stellt ein Computerprogramm insgesamt 80 Parameter so ein, dass das 3D-Modell als eine Art Maske optimal auf das jeweilige Gesicht passt.

Genau wie für die Gesichtsform gibt es auch Parameter (etwa 76 Stück), mit denen sich die Mimik erfassen lässt. Wenn der Dolmetscher zu übersetzen beginnt, werden die Unterschiede der beiden Gesichter berechnet und dann das Zielgesicht mehrmals pro Sekunde so modifiziert, dass es den gleichen Ausdruck zeigt wie das des Übersetzers.

Im Bereich der Filmindustrie werden mit dieser Technik beispielsweise Avatare zum Leben erweckt. Eine bekannte Figur ist das Herr der Ringe Wesen "Gollum". Allerdings ist diese Technik sehr aufwändig, da die Schauspieler erst mit Makern beklebt werden müssen, um deren Bewegungen zu vermessen. Außerdem sind die Rechenzeiten am Computer sehr lang.