Vom Dialog mit der Maschine

12. Mai 2017

Im zweiten Teil seiner Vorlesungsreihe "Künstliche Intelligenz für den Menschen: Digitalisierung mit Verstand" behandelte Prof. Dr. Dr. h.c. mult. Wolfgang Wahlster die zentrale Frage: "Wie können Computer unsere menschliche Sprache verstehen?" Der Inhaber der diesjährigen Johannes Gutenberg-Stiftungsprofessur erklärte, warum es für Computer so schwer ist, menschliche Sprache zu erlernen – und wie es trotz aller Hindernisse gelingt.

"Es ist ein uralter Menschheitstraum, mit den Dingen sprechen zu können", meint Prof. Dr. Dr. h.c. mult. Wolfgang Wahlster. "Können wir das heute mit dem Computer?" Ist ein echter Dialog zwischen Künstlicher Intelligenz (KI) und Mensch möglich? "Das Problem ist noch nicht völlig gelöst, das sage ich gleich vorweg. Aber wir sind einer Lösung schon sehr viel näher gekommen."

Der Inhaber der 18. Johannes Gutenberg-Stiftungsprofessur lockte auch zum zweiten Teil seiner Vorlesungsreihe "Künstliche Intelligenz für den Menschen: Digitalisierung mit Verstand" reichlich Publikum in den größten Hörsaal auf dem Campus der Johannes Gutenberg-Universität Mainz (JGU). "Vielen Dank, dass Sie wieder erschienen sind", begrüßte er sein Auditorium, "dann kann die Auftaktvorlesung in der vergangenen Woche nicht so schlecht gewesen sein."

Hürden für die Künstliche Intelligenz

In seinem Vortrag "Wie können Computer unsere menschliche Sprache verstehen? Vom Sprachdialogsystem bis zum Simultandolmetscher" lässt Wahlster zuerst die Hindernisse Revue passieren, die menschliche Sprache für Künstliche Intelligenz bereithält. Oft sind das Hürden, die der Mensch in seinem Sprachalltag intuitiv zu lösen vermag, die ihm gar nicht als Schwierigkeit bewusst sind.

Schallwellen lassen sich nicht einfach in Orthografie umwandeln. Wahlster wählt einen einfachen Satz als Beispiel: "Urlauber wollen wieder mehr ans Meer." Hier werden die Wörter "mehr" und "Meer" durch dasselbe Schallwellenmuster repräsentiert – obwohl es sich um zwei unterschiedliche Wörter handelt. Der Computer muss also in der Lage sein, den Kontext mit einzubeziehen. "Eine einfache Abbildung von Mustern in Schallwellen auf Wörter funktioniert nicht – leider. Sonst wäre die Sache viel einfacher."

Auch Dialekte können Probleme bereiten. "Das kennen Sie gerade hier in Rheinhessen", meint der Stiftungsprofessor lächelnd. Was etwa ist mit der Aussage "Isch find das nätt!" gemeint? Ist von "nett" die Rede oder meint der Sprecher "Ich finde das nicht"? Wieder ist der Kontext wichtig.

Versprecher und Mehrdeutigkeiten

Zudem gehen Wortgrenzen im Sprachfluss unter: Der Mensch spricht ohne Punkt und Komma. "Gute Computersysteme verfolgen deswegen zur Trennung von Wörtern die Satzmelodie sehr genau." Zudem macht der Mensch beim spontanen Sprechen ständig Fehler. "Fast jeder zweite Satz enthält einen kleinen Versprecher. Das nehmen Sie gar nicht wahr." Auch fallen Gesprächspartner gern einander ins Wort, sodass sich Satzteile überlappen. "In vielen Fällen ist das nicht unhöflich, sondern ökonomisch. Bessere Computersysteme machen das schon."

Die Wortstellung im Deutschen ist recht frei. Das macht es schwer, eine Rede einfach von vorn nach hinten Wort für Wort zu verfolgen. Damit gerät nicht nur eine Maschine schnell auf den Holzweg. Mehrdeutige Formulierungen können zumindest in künstlichen Schaltkreisen für Verwirrung sorgen. "Der Mensch verspürt diese Mehrdeutigkeit oft gar nicht, weil er sie im Kontext eindeutig versteht."

Auf allen Ebenen lauern Schwierigkeiten – etwa im morphologischen Bereich: Was ist unter "Staubecken" zu verstehen? Ist das ein "Stau-Becken" oder sind es "Staub-Ecken"? Im Sprachumgang impliziert der Mensch vieles. Wahlster erzählt von einem im Grunde einwandfrei arbeitenden Computersystem, das auf die Frage "Wissen Sie, wann der nächste Zug fährt?" mit einem schlichten "Ja!" antwortet. Das ist sicher nicht falsch, stellt aber weder den Fragenden noch den Forscher zufrieden.

Streben nach Eindeutigkeit

"Wie kann man all das nun maschinell bewältigen?", fragt der Stiftungsprofessor – und antwortet gleich selbst: Eine einfache akustische Spracherkennung reicht nicht, dass zeigt das Beispiel von "mehr" und "Meer". Künstliche Intelligenz arbeitet mit Wort-Hypothesen: Anhand von Wortlisten deutet sie das Gesprochene und zieht zuerst einmal Hunderte von Möglichkeiten in Betracht. Dann nimmt es die Grammatik hinzu und siebt aus: Es bleiben vielleicht zehn Möglichkeiten. Zuletzt folgt der Sprachkontext und die Sache wird klar. "Der ganze Prozess besteht darin, immer weiter zu reduzieren, bis Eindeutigkeit erreicht ist."

Vom Sprachverstehen geht es zum Sprechen. Künstliche Intelligenz bildet Phoneme, fügt sie zu Wörtern, zu Sätzen – und sie beherrscht sogar mehrere Sprachen: Sie erkennt nach wenigen Sekunden eine Zielsprache und wählt die entsprechenden Wörter, die passende Grammatik, die Sätze.

Wahlster war an der Entwicklung eines Sprachdialogsystems für den Reisebereich beteiligt. In einem kurzen Film-Einspieler zeigt er einen Kunden, der sich per Telefon nach einem Zug erkundigt. Der Mann spricht Englisch. Das Computersystem übersetzt seine Anfrage ins Deutsche. Am anderen Ende antwortet jemand auf Deutsch, das System übersetzt wieder und erteilt die Auskunft auf Englisch. "Dieses System hat uns im Jahr 2001 den Zukunftspreis des Bundespräsidenten eingebracht. Es war die Geburtsstunde für alle Speech-Translation-Systeme, die es heute gibt."

500.000 Computer-Gespräche pro Tag

Die aktuelle Entwicklung geht dahin, dass immer mehr Faktoren ins Sprachverstehen einbezogen werden. Nicht nur Mimik und Gestik kommen dabei zum Tragen. "Wir gehen heute sogar so weit, dass wir die physische Aktion mit Sprache koppeln", erzählt Wahlster. "Der Laie wird nun fragen: Um Gottes willen, wo endet das?" Da bestehe aber ein Denkfehler: "Wenn wir mehrere Systeme überlappen, schalten wir Mehrdeutigkeiten aus." Die Sache wird also nicht immer komplizierter, sondern einfacher und eindeutiger.

Mittlerweile werden rund 500.000 Gespräche pro Tag weitgehend automatisiert abgehandelt. Dabei geht es um Bestellung, Reservierungen – und auch ums Dolmetschen. Doch unterm Strich kommuniziert der Mensch immer noch entschieden effektiver und flexibler als der Computer. Menschliche Dolmetscherinnen und Dolmetscher etwa gewinnen immer noch klar im Wettbewerb mit Künstlicher Intelligenz. Und in der Dichtung, bei anspruchsvoller Literatur, bei avantgardistischer Lyrik gar versagt die Übersetzungskunst der Maschinen weitgehend.

Für Wahlster geht das in Ordnung, der Computer muss nicht überall mitmischen. "Es gibt einfach Bereiche, in denen man das nicht möchte und auch nicht braucht." Gerade in der Übersetzung von Literatur sei man mit menschlichen Spezialisten weitaus besser bedient. "Von diesen Bereichen haben wir uns mit unserer Forschung bewusst ferngehalten", meint der Stiftungsprofessor, "wie auch beim persönlichen, beim emotionalen Gespräch." Dort bleibt Künstliche Intelligenz außen vor.