KI generiert erschreckend exakte Portraits - nur anhand der Stimme

// 09:57 Sa, 9. Apr 2022von Thomas Richter

Wir sind durch einen Artikel auf Petapixel auf das extrem interessante KI Projekt "Speech2Face" aufmerksam gemacht worden, dass schon Ende 2019 veröffentlicht wurde. Der Algorithmus kann anhand eines nur ca. 4-6 Sekunden kurzen Stimmaufzeichnung das zugehörige Gesicht mit einer oft überraschend hohen Ähnlichkeit rekonstruieren.

Das tiefe neuronale Netzwerk wurde anhand von Millionen von Videos trainiert, auf denen Menschen zu sehen waren, die miteinander reden. Zum einen wurden die in den Videos vorkommenden Gesichter erkannt und zum anderen die zugehörige Stimmen per Spektrogramm charakterisiert. Anhand dieser Spektrogramme wird dann bei der Suche ein zu einer bestimmten Stimme passendes Gesicht generiert. Je länger das Sprachbeispiel ist, desto größer ist meist auch die Ähnlichkeit des Gesichts (6 Sekunden ergeben deutlich bessere Ergebnisse als 3 Sekunden Samples.

So lernte der Deep Learning Algorithmus selbständig Korrelationen zwischen dem Klang von Stimmen und dem Aussehen der Sprecher. Darauf basierend schätzt der Algorithmus dann das Alter, Geschlecht sowie weitere Merkmale des Sprechers/der Sprecherin und generiert ein passendes Gesicht.

Speech2Face algorithm — Speech2Face Algorithmus

Um die Leistung der KI noch besser beurteilen zu können und das echte Gesicht mit dem generierten vergleichen zu können, wurde auch ein standardisiertes Bild des Gesichts aus der Frontalansicht mit identischer Beleuchtung einer sprechenden Person aus den Videos synthetisiert. Und auch hier zeigt sich eine oft erstaunliche Ähnlichkeit der echten mit den per Speech2Face erzeugten Gesichtern, die weit über das passende Alter und Geschlecht hinausgehen.

Es gab allerdings auch eine Reihe von Fällen, wo das generierte Gesicht stark vom Originalgesicht des Sprechenden abwich in Bezug auf Alter, Geschlecht oder ethnische Zugehörigkeit. Bei letzterer besonders dann, wenn eine Person nicht in der Sprache der jeweils (scheinbar) ethnischen Zugehörigkeit spricht.

Speech2Face problems — Speech2Face Probleme

Die Forscher selbst schränken deshalb auch ein, daß ihr Modell zwar statistische Korrelationen zwischen Gesichtsmerkmalen und Stimmen von Sprechern in den Trainingsdaten aufdeckt, die verwendeten Trainingsdaten (hauptsächlich einer Sammlung von Bildungsvideos von YouTube) jedoch nicht die gesamte Weltbevölkerung repräsentieren und das Modell von dieser ungleichmäßigen Verteilung der Daten beeinflusst ist. Sie empfehlen deswegen, daß bei jeder praktischen Anwendung der Methode für die beabsichtigte Nutzerpopulation repräsentative Trainingsdaten verwendet werden.

Anwendungsfälle wären zum Beispiel die automatische Generierung von zu einer Stimme passenden Avataren (auch in als Cartoon stilisierter Form) in Fällen von Onlinegesprächen, bei denen nur der Sound vorliegt. Ebenso könnten per Speech2Face auch computergenerierte Stimmen zum Beispiel von virtuellen Assistenten ein Gesicht bekommen.

Speech2Face cartoon faces — Speech2Face Cartoon Gesichter

Wie oft bei DeepLearning Algorithmen besteht die Gefahr, dass die auf vielen Trainingsdaten beruhende "Schätzung" des Algorithmus - so gut sie auch meist ist - unhinterfragt für wahr genommen wird. Ähnlich ist es auch bei KI Superresolution Methoden, die die Auflösung von unscharfen Bilder zwar deutlich vergrößern und dann Dinge zum Vorschein kommen lassen, die nicht per se "wahr" sind, sonder einfach nur sehr wahrscheinlich. Wer das ganze ausprobieren will, auf Github findet sich der Code.

Uns ist noch keine neue Version von Speech2Face bekannt - sollte die Methode aber weiterentwickelt werden, dann ist sie sehr wahrscheinlich aufgrund des enormen Fortschritts im Bereich DeepLearning nochmals deutlich besser als der inzwischen schon über 2 Jahre "alte" Algorithmus.

mehr Infos bei
speech2face.github.io

Auf Socials teilen:

Leserkommentare // Neueste

Kommentieren >>

Ähnliche News //

News

KIs imitieren Stimmen perfekt - Vorsicht vor anrollenden Betrugswellen

Befürchtet war es ja schon länger - jetzt ist es so weit: Die ersten Telefontrickbetrüger nutzen Stimmen-KIs, um alte Menschen durch einen vorgeblichen Notfall eines ihrer Kinder ....

// 13:16 Do, 9. Mär 2023von Thomas Richter

News

OpenAI VALL-E: Neue KI macht jede Stimme nach - nur anhand von 3s Stimmsample

Es gibt ja schon seit längerem verschiedene DeepLearning Algorithmen, welche die unterschiedlichsten Stimmen täuschend echt nachahmen können - allerdings war bisher immer eine ...

// 16:42 Mo, 9. Jan 2023von Thomas Richter

News

Stimme geklaut? Scarlett Johansson kritisiert OpenAI: ChatGPT spricht wie ich

Scarlett Johansson wollte ihre Stimme nicht für ChatGPT zur Verfügung stellen. Trotzdem klingt eine der ChatGPT 4.0 Stimmen - Sky - ihr zum Verwechseln ähnlich - warum?

// 19:06 Di, 21. Mai 2024von blip

News

Missbrauchsgefahr Microsoft VALL-E 2: KI ahmt jede Stimme perfekt nach - nur per 3s Stimmsample

Schon vor anderthalb Jahren hatte OpenAI VALL-E veröffentlicht, ein System zur Sprachsynthese, welches anhand eines nur 3 Sekunden langen Samples einer Stimme in der Lage war, ...

// 10:07 Do, 18. Jul 2024von Thomas Richter

News

Ein Bild genügt Microsoft VASA-1 generiert realistische Video-Portraits aus einer Audiodatei

Eine Forschungsgruppe bei Microsoft hat ein neues KI-Framework namens VASA-1 vorgestellt, das die Generierung lebensechter, sprechender Gesichter mit auffällig ansprechenden ...

// 10:50 Do, 18. Apr 2024von Rudi Schmidts

zur Newsübersicht >

Kostenlose Profi-Kamera App Blackmagic Camera App 2.1 für iOS bringt viele Verbesserungen

Blackmagic hat die neue Version 2.1 seiner kostenlosen Camera App fürs iPhone veröffentlicht, welche zahlreiche professionelle Funktionen bietet und sich auch nahtlos in ...

// 12:15 Do, 24. Okt 2024von Thomas Richter

News

Endgültig entschieden BGH bestätigt Gerichtsurteil: Panoramafreiheit gilt nicht für Drohnenaufnahmen

Ein neues BGH-Urteil könnte beträchtliche Konsequenzen für Drohnenfilmer haben. Bereits letztes Jahr hatte das Oberlandesgericht Hamm in einem Streit zwischen der ...

// 15:14 Mi, 23. Okt 2024von Thomas Richter

News

Mit Dual-KI-Chip Insta360 Ace Pro 2 Actioncam mit verbessertem PureVideo und Leica-Farbprofilen

Mit der Ace Pro 2 erscheint die neueste Generation der Insta360-Actioncam - sie muss sich mit der DJI Osmo Action 5 Pro messen lassen, welche ebenfalls kürzlich auf den Markt kam. ...

// 14:59 Di, 22. Okt 2024von blip

News

Kostenlos und effizient Pyramid Flow - Neue Open Source Video-KI generiert mit 1280 x 768 und 24fps

Gerade wächst das Angebot von KIs, welche hochwertiges Video erzeugen können, rasend schnell - das neue Pyramid Flow Modell chinesischer Forscher aber sticht dabei heraus, denn es ...

// 15:37 So, 13. Okt 2024von Thomas Richter

TOP THEMEN //

zum Forum >>

MEHR NEWS

zum Newsindex >

PASSENDE DISKUSSIONEN

zum Forum >>

Passende Artikel //

Aktuelles

Text-zu-Sprache per KI: Ersetzen synthetische Stimmen bald professionelle Sprecher?

Nach Bild- und Text-generierenden KIs gibt es noch weiteres Feld, in welchem gerade per künstlicher Intelligenz enorme Fortschritte gemacht werden und zwar bei der Synthese von ...

// 19:47 Mo, 6. Feb 2023von Thomas Richter

Aktuelles

Stoppt Mickey Mouse die KI Kunst Revolution? Künstler protestieren gegen KI Konkurrenz

Die neuen bildgenerierenden KIs stellen eine Revolution dar: sie eröffnen erstmals die Möglichkeit, massenhaft hochqualitative Bilder nach Wunsch zu erzeugen - in beliebiger Menge,...

// 14:21 Di, 3. Jan 2023von Thomas Richter

zur Artikelübersicht >

Aktuelle News //

News

Neues Topmodell Neue Apple MacBook Pros mit M4 und bis zu 128 GB Arbeitsspeicher und 8 TB SSD

Apple hat wie erwartet eine neue MacBook Pro Generation mit M4, M4 Pro und M4 Max Chips vorgestellt, die neben der zusätzlichen Leistung auch noch weitere Verbesserungen ...

// 10:07 Do, 31. Okt 2024von Thomas Richter

News

Handheld + zum Anstecken Sennheiser Profile Wireless - kompaktes Mikrofonsystem vorgestellt

Für Filmschaffende und andere Kreative hat Sennheiser das kompakte Mikrofonsystem Profile Wireless vorgestellt, bestehend aus einem 2,4-GHz-Zweikanalempfänger und zwei ...

// 09:45 Do, 31. Okt 2024von blip

zur Newsübersicht >