Eine Maschine, die Emotionen hört
Algorithmen können lernen, Emotionen in der menschlichen Stimme zu erkennen. Ausserhalb des Labors müssen sie sich noch bewähren. Von Sophie Gaitzsch
(Aus "Horizonte" Nr. 113 Juni 2017)
Wenn wir bei unserer Bank oder Versicherung anrufen, antwortet häufig eine automatische Stimme. Während langer Minuten bittet sie uns, aus mehreren Möglichkeiten auszuwählen, die nicht immer auf uns zuzutreffen scheinen. Wir seufzen, murmeln ein paar Beleidigungen, regen uns über das System auf. Und siehe da, gerade bevor unser Geduldsfaden reisst, nimmt ein Mensch ab. Zufall? Nicht unbedingt: Programme, die auf künstlicher Intelligenz beruhen, sind heute in der Lage, Gefühle zu erkennen. Unternehmen können dies für ihre Dienste nutzen.
Sascha Frühholz, Professor für Psychologie an der Universität Zürich, ist spezialisiert auf Neurowissenschaften und arbeitet an der automatischen Erkennung von Emotionen in der Stimme. "Algorithmen werden immer effizienter, vor allem wenn es darum geht, sechs Grundemotionen zu identifizieren: Wut, Angst, Freude, Ekel, Traurigkeit und Überraschung." Anspruchsvoller ist es für Computer, Scham oder Stolz zu erkennen – das gilt übrigens auch für Menschen.
Die grösste Herausforderung für solche Systeme ist die genügend breite Anwendung. "Sie werden mit spezifischen Daten trainiert", erklärt Frühholz. Ihre Leistung geht zurück, wenn sie in einer anderen akustischen Umgebung eingesetzt werden – oder für eine andere Sprache. Einem Algorithmus, der gelernt hat, Wut in einer Zürcher Stimme zu erkennen, wird dies bei Genfern weniger gut gelingen. Noch schlechter abschneiden wird er bei asiatischen Stimmen, deren akustisches Profil noch weiter entfernt ist.
Frühholz hat darum Techniken des überwachten und des unüberwachten Lernens kombiniert. "Wir haben den Algorithmus mit Daten trainiert, die ihm beispielsweise angeben, ob eine Stimme wütend oder erfreut ist. Danach haben wir Daten ohne diese Informationen eingespeist, was den Algorithmus unabhängiger macht."
So erreicht die Erkennungsquote 63 Prozent – deutlich mehr als mit überwachtem oder unüberwachtem Lernen allein. Dort liegen die Quoten zwischen 54 und 58 Prozent. Gemäss Frühholz, der sich auch mit der menschlichen Wahrnehmung von Gefühlen über das Gehör befasst, erkennen Menschen Emotionen in der Stimme eines Gesprächspartners in 85 bis 90 Prozent der Fälle. "Die Erkennungsquote ist zum grossen Teil sowohl bei den Algorithmen als auch bei den Menschen davon abhängig, wie viele Emotionen gleichzeitig entschlüsselt werden müssen.
Depressionen früh erkennen
Für die automatische Erkennung von Emotionen gibt es potenzielle Anwendungen in vielfältigen Bereichen wie Kundendienst, Marketing, Überwachung, Hilfe für ältere Menschen oder Medizin. "Diese Technologie könnte insbesondere helfen, erste Anzeichen von Angstzuständen oder Depressionen zu identifizieren", sagt David Sander, Leiter des Nationalen Forschungsschwerpunkts "Affektive Wissenschaften" sowie des interfakultären Zentrums der Universität Genf.
An der EPFL forscht Jean-Philippe Thiran zur visuellen Erkennung von Gesichtsausdrücken. Dafür arbeitet er mit der Automobilindustrie zusammen. "Ziel ist es, Informationen über die Person am Steuer zu sammeln. Halbautonome Autos zum Beispiel sollten wissen, in welchem emotionalen Zustand sich der Lenker befindet, wenn die Kontrolle an den Fahrer übergeht. Ob dieser gestresst oder in der Lage ist, eine Entscheidung zu treffen." Für einen genervten Lenker könnte das Auto beruhigende Musik abspielen, für eine müde Fahrerin das Cockpit heller einstellen.
"Grösste Knacknuss unseres Forschungsgebiets ist derzeit das Erkennen von Gesichtsausdrücken unter schwierigen Bedingungen, etwa wenn das Gesicht schlecht beleuchtet ist, sich bewegt oder nicht von vorn sichtbar ist", erklärt Jean-Philippe Thiran. Dies gelte auch für die Interpretation einer subtileren oder individuelleren Mimik.
Sophie Gaitzsch ist eine Schweizer Journalistin in Paris.