Stephanie Gross forscht an künstlicher Intelligenz. ©Viktoria Schreitter

Frauen in der Forschung: Clevere Roboter

Sprache, Gestik, Mimik: Computerlinguistin Stephanie Gross erforscht, was davon für die Kommunikation zwischen Mensch und Maschine wichtig ist.

In Filmen schupfen sie den Haushalt, zeigen Gefühle und retten die Welt. "Davon sind wir derzeit noch weit entfernt", sagt Stephanie Gross. "Aber natürlich müssen wir uns darauf einstellen, dass Roboter immer intelligenter werden." Die Computerlinguistin weiß, wovon sie redet. Seit 2009 erforscht sie am Österreichischen Forschungsinstitut für Artificial Intelligence (OFAI), wie Mensch und Maschine am besten miteinander kommunizieren können. Mit gutem Grund, wie sie erklärt: "Roboter müssen künftig in der Lage sein, laufend neue Aufgaben zu übernehmen. Man kann sie aber nicht von vornherein programmieren. Also müssen sie lernen, Objekte, Aktionen, Personen, Gesten und Worte zu erkennen und zu interpretieren."

Verzerrtes Bild von Robotern

Für einige mag das bedrohlich klingen, nicht so für die Expertin. "Es gibt keinen Grund, sich vor künstlicher Intelligenz zu fürchten", sagt sie und ortet die Ursache für die Skepsis in Büchern und Filmen: "Das verzerrte Bild, das darin vermittelt wird, hat nichts mit der Realität zu tun. Fakt ist, ein Computer kann nicht intuitiv reagieren. Er trifft nur Entscheidungen, die bereits in seiner Entwicklung berücksichtigt wurden." Zumindest aus heutiger Sicht sei das so. "Wir können natürlich nicht ausschließen, dass es einmal so kommen kann. Aber genau deshalb sollten wir uns schon jetzt mit den möglichen Auswirkungen auseinandersetzen. Auf wissenschaftlicher und gesellschaftlicher Ebene." Wenn Roboter den Menschen also künftig noch mehr Arbeit abnehmen sollen, muss es dafür eindeutige Spielregeln geben.

Wenig Information in der Sprache

Die wichtigste Voraussetzung für ein gutes Miteinander ist eine eindeutige Kommunikation. "Je leichter sich ein Computer an seine Umgebung anpasst und sich in der Interaktion mit Menschen adäquat verhält, umso besser ist es", sagt Gross. Dafür ist allerdings viel wissenschaftliche Vorarbeit notwendig. Eine Hürde für Forscherinnen und Forscher: "Wenn verschiedene Personen ein und dieselbe ganz einfache Aufgabe erklären und gleichzeitig vorzeigen, sind die Unterschiede in Wortwahl und Gestik enorm. Menschen vermitteln auch sehr viel nonverbal. Wenn beispielsweise eine Person einer anderen eine kurze Aufgabe erklärt und gleichzeitig vorzeigt, was zu machen ist, ist sehr wenig Information in der Sprache selbst enthalten. Es gibt Korrekturen, Unterbrechungen, oft werden ähnliche oder allgemeine Begriffe wie das Ding, das Teil, das Ganze verwendet. Menschen können damit umgehen, weil sie wissen, was gemeint ist. Eine künstliche Intelligenz nicht."

Beobachten und interpretieren

Diese Eigenheiten gesprochener Sprache fallen oft nicht einmal auf, führt Gross weiter aus. "Weil für uns wichtig ist, was wir während der Interaktion sehen. Also worauf die Person, die erklärt, schaut und zeigt und welche Aktionen sie ausführt. Diese unterschiedlichen Informationen, die über Gestik, Augenbewegungen und Sprache übertragen werden, kombinieren menschliche Beobachterinnen und Beobachter automatisch, um alle relevanten Informationen zu erhalten." Anders, wenn der Interaktionspartner eine künstliche Intelligenz ist." Dann ist die Frage, welche Informationen muss er in welcher Reihenfolge verarbeiten, um schließlich alle für die Aufgabe relevanten Informationen extrahieren zu können." Ein Beispiel? "Der Roboter soll lernen, etwas zu greifen. Dazu beobachtet er den Menschen zunächst bei der Ausführung dieser einfachen Aktion und identifiziert die dazugehörigen Bewegungen und Gegenstände. Gleichzeitig analysiert er die dazugehörige sprachliche Äußerung, die diese Aktion beschreibt. Über diese Verben und ihre Argumentationsstrukturen erlernt er dann die gesamte Aktion und umgekehrt."

Lernen wie die Kinder

Grundlage dieses Modells bilden entwicklungspsychologische Studien. Dabei geht man davon aus, dass bei Kindern die Bedeutung von Verben in vier aufeinanderfolgenden Schritten erfolgt. "Zuerst werden Aktionen wiederholt beobachtet und imitiert. Im nächsten Schritt findet zeitgleich eine sprachliche Äußerung wie 'greifen' statt. Im dritten Schritt begleitet die gleiche Aktion eine sprachliche Äußerung mit unterschiedlichen Subjekten oder Objekten. Im vierten Schritt können basierend auf den ersten Schritten verschiedene Aktionen und Verben gelernt werden und umgekehrt. Diese vier Schritte versuchen wir in unserem Modell zu berücksichtigen." Ziel ist es, dass Mensch und Roboter miteinander kommunizieren, ohne dass der Mensch eine künstliche Sprache annehmen muss. "Der Roboter sollte also auch in der Lage sein, relevante nonverbale Information zu interpretieren."

"Nimm das Ding"

Kein einfaches Unterfangen, wie das von ihr aufgenommene Datenmaterial zeigt. "In diesen Aufnahmen geht es um kurze Aufgaben. Es wird zum Beispiel ein Schlauch montiert und anschließend durch eine bestimmte Vorrichtung gelegt oder ein Brett gemeinsam hochgehoben und auf eine bestimmte Weise an einen bestimmten Ort gelegt", erklärt Gross. "Sehr oft werden dabei Aussagen getätigt wie 'Dann nimmst du das Ding' oder 'Jetzt legen wir das Ganze hier durch'. Ein Roboter kann das nur verstehen, wenn auch nicht-sprachliche Information berücksichtigt wird. Für meine Arbeit stellen sich daher folgende Fragen: Wie groß ist die Variation, in der auf ein und dasselbe Objekt verwiesen wird? Wie oft sind verbale Referenzen auf Objekte im Umfeld nicht eindeutig auflösbar? Welche Modalitäten, also Sprache, Augenbewegungen und Gestik, sind zwingend erforderlich, um die notwendige Information zu übertragen? Wie oft widersprechen sich Informationen, die zeitgleich über Sprache und Gestik übertragen werden? Welche davon ist wann die ausschlaggebende? Basierend auf diesen Ergebnissen sollen dann Mechanismen entwickelt werden, mit dem Roboter den Informationsgehalt einer Interaktion, in der eine Aufgabe erklärt und gezeigt wird, erfassen können."

Werden Roboter als Arbeitskollegen bald alltäglich sein? © Bohmann/Nikolaus Similache

Welche Programmierschritte sind demnach erforderlich, um ein Wort oder eine Geste zu verstehen? "Verstehen ist ein schwieriges Wort in diesem Zusammenhang", sagt Gross. "Der Roboter hat zum Beispiel eine Äußerung verstanden oder richtig interpretiert, wenn er eine sprachliche Äußerung mit einem Objekt oder einer Aktion in Verbindung bringen kann. Es sind einige System-Komponenten notwendig, um ein Wort oder eine Geste zu interpretieren. Zuerst muss das Wort über Spracherkennungssoftware identifiziert und anschließend interpretiert werden. Ebenso muss die Geste über Bilderkennung zuerst identifiziert werden. Je nach Geste muss der relevante Bereich identifiziert werden: Im Fall einer Zeigegeste muss herausgefiltert werden, wo hingezeigt wird. Im Fall einer ikonischen Geste muss die Aktion, die zum Beispiel mit einer Hand dargestellt wird, herausgefiltert werden. Anschließend muss die Information, die über die Geste übertragen wird, identifiziert und interpretiert werden."

Visueller Input wichtig

Gross' Forschungsbereich liegt an der Schnittstelle zwischen Sprachwissenschaft, Psychologie, Informatik und künstlicher Intelligenz. Studiert hat sie Germanistik, Linguistik und Kognitionswissenschaften, ihr Interesse für Computerlinguistik hat sich nach einem Praktikum am OFAI verstärkt. Dort arbeitet sie aktuell auch an einem Projekt des Wiener Wissenschafts-, Forschungs- und Technologiefonds WWTF. "Wir beschäftigen uns mit der Frage, wie neue Aktionen und die jeweiligen Verben, die sie beschreiben, von einem künstlichen System gelernt werden können. Bis jetzt war es üblich, Sprache getrennt von anderen Modalitäten wie Gestik oder Augenbewegungen zu betrachten. Allerdings stößt man hier schnell an Grenzen. Das Einbinden von visuellem Input gewinnt daher immer stärker an Bedeutung. Ziel ist, dass ein Roboter nicht nur Aktionskonzepte versteht, sondern auch in der Lage ist, neue Aktionen zu lernen, auszuführen und über sie zu sprechen."

Roboter als Kaffee kochender Kollege

Diese Roboter sollen dann im Gesundheitswesen und im Haushalt eingesetzt werden. Apropos: Welchen Bezug hat sie selbst zu Robotern? "Ich habe keinen zu Hause", sagt sie. "Nicht einmal einen selbstfahrenden Staubsauger. Allerdings sind Mobiltelefone mittlerweile schon sehr intelligent." Ob sie sich einen Roboter als Kollegen vorstellen kann? Antwort: "Wenn er Kaffee kochen kann", sagt sie und lacht.

Vorteilspartner CLUB WIEN

FREIRAUM

CLUB WIEN-Mitglieder erhalten im FREIRAUM-Institut 11 Drop-In-Classes (offene Stunden) um 145 statt 160 Euro!

Erfahren Sie mehr 29627

Sargfabrik

CLUB WIEN-Mitglieder erhalten 2 Euro Ermäßigung für alle Abo-Veranstaltungen in der Sargfabrik.

Erfahren Sie mehr 31018

Märchenbühne "Der Apfelbaum"

Mit der CLUB WIEN-Vorteilskarte erhalten Mitglieder 10 Prozent Ermäßigung auf den Originalkartenpreis.

Erfahren Sie mehr 31088

Volkskundemuseum Wien

Mit der CLUB WIEN-Vorteilskarte erhalten Mitglieder 2 Euro Ermäßigung auf den Kartenpreis für Erwachsene.

Alle Vorteilspartner