Warum KIs keinen Kaffee kochen können

01.09.2021 — Tobias Weilandt. Quelle: Verlag Dashöfer GmbH.

Was eine zunächst profane Aufgabe zu sein scheint, ist für KI's eine Stand heute kaum zu bewältigende Herausforderung: Kaffee kochen. Warum das so ist und was sich daraus über den Stand der Technik lernen lässt, erfahren Sie hier.

Um entscheiden zu können, ob eine Maschine im weitestgehenden Sinne denken kann, wird seit den 1950er Jahren der sogenannte Turing Test immer wieder ins Feld geführt. Im Rahmen dieses Tests soll eine Testperson innerhalb eines Kommunikationsszenarios entscheiden, ob ein*e Gesprächspartner*in ein Mensch oder eine Künstliche Intelligenz ist.

Der Apple-Mitbegründer Steve Wozniak schlug vor einigen Jahren in einem Interview vor, stattdessen eine KI in einem fremden Haushalt einen Kaffee kochen zu lassen. Warum dieser Coffee Test sinnvoll und hoch anspruchsvoll ist und welche Fähigkeiten er von einer Künstlichen Intelligenz erfordert, werde ich im Folgenden erklären.

Das Ziel der KI-Forschung ist die Simulation menschlicher Handlungen und ihrer zugrundeliegenden mentalen Zustände (Denken, Fühlen, Überzeugunge, Absichten etc.). Maschinen sollen ein Verhalten zeigen, das, würde es durch einen Menschen vollzogen werden, als intelligent bewertet. Hierfür stehen mittlerweile einige Methoden zur Verfügung, wie machine learning (zumeist basierend auf neuronalen Netzwerken), natural language processing (Spracherkennung und -ausgabe), computer vision (Bilderkennung) und state Space search (Optimierung von Prozessen). Diese Verfahren kommen bei den unterschiedlichsten Simulations-Zielen zum Einsatz und werden immer wieder miteinander kombiniert: So gibt es Synthesen zwischen machine learning und Bilderkennung oder machine learning und natural language processing.

Welche Fähigkeiten und Kenntnisse benötigt eine KI für das erfolgreiche Bestehen des Coffee Tests? Zuerst einmal müsste eine Künstliche Intelligenz eine Küche als Küche erkennen. Eine KI könnte durchaus darauf trainiert werden, bestimmte Schnittmengen von vorher eingegebenen Küchenbildern zu abstrahieren und so lernen eine Küche von einem Arbeitszimmer zu unterscheiden. Klare Indizien wie Kühlschrank, Herd und vielleicht ein Toaster können beim Erkennen wichtige Dienste leisten. Vielleicht müsste man noch einmal nachbessern, wenn die KI in einer Wohnküche oder Pantry-Küche landet und sich verwirrt im Kreis dreht.

Ebenfalls trainierbar: Sie müsste mithin wissen, welche Utensilien sie benötigt, je nach Art der Kaffeemaschine und wo diese in der Küche zu finden sind und sich flexibel auf die Gegebenheiten ihrer Umwelt einstellen. Eine Kapselmaschine bedarf anderer Handgriffe als eine Filtermaschine oder eine, bei der die Kaffeebohnen zuerst noch gemahlen werden müssen.

Dementsprechend müsste sie auch das “Rezept” kennen, so bspw. bei einer Filtermaschine das richtige Verhältnis von Kaffee und Wasser. Und woran erkennt sie sicher, dass das braune Pulver in einer Dose tatsächlich Kaffee ist, wenn ihr keine olfaktorischen Erfahrungen zur Verfügung stehen, weil sie nicht riechen kann?

Wenn sie beginnt, einen Kaffee zu kochen, stellt sich die grundlegende Frage, für wen sie denn den Kaffee kocht. Einen einzelnen Kaffee zuzubereiten, nur um ihn zuzubereiten, ist aus menschlicher Perspektive wenig intelligent. Ist der KI aber klar, dass bspw. die Leiterin des Programmierteams einen Kaffee von ihr erhalten soll, kann sie auf deren Präferenzen reagieren (Zucker? Milch? Sahne? Schwarz? Stark? Ohne Koffein?). Aber kann die KI dann auch für fünf andere Kollegen einen Kaffee zubereiten, die je eigene Geschmacksvorlieben haben? Für all das bedarf es hochflexibler Entscheidungsstränge und Kenntnisse der individuellen Kaffeerezepte.

Neben diesem Wissen und Kompetenzen müsste sie zudem die Feinmotorik beherrschen, einen Kaffeelöffel zu verwenden, Wasser in den Behälter zu gießen und am Ende optional einen Schluck Milch in den Kaffee zu schütten. Gerade diese (scheinbar) so einfachen motorischen Bewegungen bedürfen derzeit noch hoher Rechnerleistungen, zumal es einen großen Unterschied macht, ob Milch aus einer Tüte eingegossen wird oder aus einem Kännchen. Alles das müsste die KI wissen, erkennen und dementsprechend flexibel agieren.

Wir Menschen lernen all das zum einen durch Unterweisung, indem uns jemand zeigt, wie man Kaffee kocht und ggf. korrigierend eingreift, wenn zu wenig Kaffeepulver verwendet wird, die Filtertüte nicht richtig im Behälter steckt oder die Milch seltsam riecht. Wir erwerben ein bestimmtes Wissen und Kompetenzen durch kulturelle Transmission. Zum anderen lernen wir durch Erfahrungen, und zwar immer, wenn etwas nicht klappt und wir nach der Ursache fragen: Klumpt die Milch, ist sie abgelaufen. Schmeckt der Kaffee bitter, ist er vielleicht von minderer Qualität, zu stark oder einfach abgestanden.

Eine KI lernt so eben nicht, sondern durch vielfaches Probieren. Zudem wissen wir, warum wir einen Kaffee kochen: Wir verbinden Emotionen damit, haben eine Absicht und verfolgen ein Ziel. KIs simulieren dieses Verhalten allerdings nur, ohne zu wissen, dass sie etwas tun, was sie tun und zu welchem Zweck.

Einen einfachen Kaffee zu kochen, mag trivial erscheinen, kochen doch die meisten von uns tagtäglich Kaffee zu Hause oder im Büro. Für eine KI stellen sich dabei jedoch zahlreiche Herausforderungen, die für sie neu sind und die sie flexibel lösen muss, zumal sie zahlreiche Fähigkeiten aus unterschiedlichen Gebieten beherrschen muss (Kognitive Prozesse wie Zeichenerkennung, Feinmotorik, Konventionen etc.) Und genau hier liegt das Problem: KIs sind “Fachidioten”, die in einem einzelnen Bereich glänzen, aber ihre Schlüsse, Ergebnisse und Erfahrungen nicht auf andere Gebiete anwenden können. Sie mögen zwar gegen Schachweltmeister und Go-Spieler souverän gewinnen, die Figuren bzw. die Spielsteine aber selbst bewegen können sie nicht. Und selbst wenn sie es könnten, einen Kaffee können sie dann noch lange nicht einschenken, ist ihr Bewegungsrepertoire doch stets nur auf einzelne Tätigkeiten (z. B. eine Schachfigur bewegen) beschränkt. Haben wir Menschen aber erst einmal einen gewissen Grad an Feinmotorik erlernt, ist es uns ein Leichtes, diese Fähigkeiten breit gefächert einzusetzen.

So ist Kaffeekochen (inkl. Eingießen in eine Tasse) für uns Menschen kein Problem und gelingt zumeist auch in halb wachem Zustand am Morgen. Für eine KI ist diese einfache Tätigkeit hingegen ein echter Intelligenztest, der nicht so leicht zu bestehen ist - und bisher hat das noch keine Maschine geschafft.

Bild: picjumbo_com (Pixabay, Pixabay License)