Verantwortungsvolle Künstliche Intelligenz (Teil 1)

Die Frage nach dem verantwortungsvollen Umgang mit künstlicher Intelligenz (KI) ist nicht neu. Doch als sich Ende 2022 innerhalb von fünf Tagen eine Million Nutzer beim Textgenerator ChatGPT anmeldeten, wurde auch die Diskussion um verantwortungsvolle KI neu entfacht und in Berufsfelder getragen, die bis dahin kaum von KI betroffen zu sein schienen: Darunter Programmierer, Journalisten und Künstler u.V.m. Um die Frage, nach verantwortungsvoller KI beantworten zu können, reicht es aber nicht aus, allein auf die positiven oder negativen Folgen zu schauen: Man muss auch nach verschiedenen Arten von KI differenzieren, weshalb sich der erste Teil dieses Beitrags mit der Definition und Anwendungsfällen von KI beschäftigt, und darauf aufbauend im zweiten Teil auf die Frage nach dem verantwortlichen Umgang eingegangen wird.

Abstract Teil 1: Der folgende Artikel beginnt im 1. Abschnitt mit einer Arbeitsdefinition der Künstlichen Intelligenz (KI), die sich an messbaren Kriterien orientiert und nach Kenntnisstand korrigiert und erweitert werden kann. Im 2. Abschnitt wird gezeigt, wie sich die KI zunächst am logischen Schließen der symbolischen Logik orientierte (Abschnitt 2.1). Das statistische Lernen aus großen Datenmassen führte schließlich zum Machine Learning, das die technisch-wirtschaftlichen Durchbrüche der KI heute dominiert (Abschnitt 2.2). Dazu gehören auch Chatbots wie ChatGPT, die täuschend echt Texte und Unterhaltungen auf anspruchsvollem Niveau generieren, aber auch gefährliche Fehlinformationen und Diskriminierungen in den Medien verbreiten können (Abschnitt 2.3). Was fehlt, ist logisches und kausales Begründen und Verstehen (Abschnitt 2.4). Daher wird eine Erweiterung zu einer hybriden KI gefordert, die statistisches Machine Learning mit logischem und kausalem Denken verbindet (Abschnitt 2.5). Anwendungen werden sowohl für Roboter (Abschnitt 3) als auch in intelligente Infrastrukturen (Abschnitt 4) erörtert.

1. Definition von Künstlicher Intelligenz

Traditionell wurde KI (Künstliche Intelligenz) als Simulation intelligenten menschlichen Denkens und Handelns aufgefasst. Diese Definition krankt daran, dass „intelligentes menschliches Denken“ und „Handeln“ nicht definiert sind. Ferner wird der Mensch zum Maßstab von Intelligenz gemacht, obwohl die Evolution viele Organismen mit unterschiedlichen Graden von „Intelligenz“ hervorgebracht hat. Zudem sind wir längst in der Technik von „intelligenten“ Systemen umgeben, die zwar selbstständig und effizient, aber häufig anders als Menschen unsere Zivilisation steuern.

Umso mehr stellt sich die Frage, was macht uns Menschen aus und wie ist menschliche Autonomie zu verstehen?

Einstein hat auf die Frage, was „Zeit“ sei, kurz geantwortet: „Zeit ist, was eine Uhr misst“. Deshalb schlagen wir eine Arbeitsdefinition für Intelligenz vor, die unabhängig vom Menschen ist und von messbaren Größen von Systemen abhängt. Dazu betrachten wir Systeme, die mehr oder weniger selbstständig (autonom) Probleme lösen können. Beispiele solcher Systeme können z.B. Organismen, Gehirne, Roboter, Automobile, Smartphones oder Accessoires sein, die wir am Körper tragen (Wearables). Systeme mit unterschiedlichem Grad von Intelligenz sind aber auch z.B. Fabrikanlagen (Industrie 4.0), Verkehrssysteme oder Energiesysteme (smart grids), die sich mehr oder weniger selbstständig steuern und zentrale Versorgungsprobleme lösen. Der Grad der Intelligenz solcher Systeme hängt vom Grad der Selbstständigkeit, von der Komplexität des zu lösenden Problems und der Effizienz des Problemlösungsverfahrens ab.

Es gibt danach also nicht „die“ Intelligenz, sondern Grade von Intelligenz. Komplexität und Effizienz sind in der Informatik und den Ingenieurwissenschaften messbare Größen. Ein autonomes Fahrzeug hat danach einen Grad von Intelligenz, der vom Grad seiner Fähigkeit abhängt, einen angegebenen Zielort selbstständig und effizient zu erreichen. Es gibt bereits mehr oder weniger autonome Fahrzeuge. Der Grad ihrer Selbstständigkeit ist technisch genau definiert. Die Fähigkeit unserer Smartphones, sich mit uns zu unterhalten, verändert sich ebenfalls. Jedenfalls deckt unsere Arbeitsdefinition intelligenter Systeme die Forschung ab, die in Informatik und Technik unter dem Titel „Künstliche Intelligenz“ bereits seit vielen Jahren erfolgreich arbeitet und intelligente Systeme entwickelt (Mainzer 2019, 3):

Ein System heißt intelligent, wenn es selbstständig und effizient komplexe Probleme lösen kann. Der Grad der Intelligenz hängt vom Grad der Selbstständigkeit (Autonomie), dem Grad der Komplexität des Problems und dem Grad der Effizienz des Problemlösungsverfahrens ab. Die Liste der genannten Kriterien ist keineswegs vollständig, sondern kann im Sinn einer Arbeitsdefinition nach Bedarf erweitert werden

Es ist zwar richtig, dass intelligente technische Systeme, selbst wenn sie hohe Grade der selbstständigen und effizienten Problemlösung besitzen, letztlich von Menschen angestoßen wurden. Aber auch die menschliche Intelligenz ist nicht vom Himmel gefallen und hängt von Vorgaben und Einschränkungen ab. Der menschliche Organismus ist ein Produkt der Evolution, die voller molekular und neuronal kodierter Algorithmen steckt. Sie haben sich über Jahrmillionen entwickelt und sind nur mehr oder weniger effizient. Häufig spielten Zufälle mit. Dabei hat sich ein hybrides System von Fähigkeiten ergeben, das keineswegs „die“ Intelligenz überhaupt repräsentiert. Einzelne Fähigkeiten des Menschen haben KI und Technik längst überholt oder anders gelöst. Man denke an Schnelligkeit der Datenverarbeitung oder Speicherkapazitäten. Dazu war keineswegs „Bewusstsein“ wie bei Menschen notwendig. Organismen der Evolution wie Stabheuschrecken, Wölfe oder Menschen lösen ihre Probleme unterschiedlich. Zudem hängt Intelligenz in der Natur keineswegs von einzelnen Organismen ab. Die Schwarmintelligenz einer Tierpopulation entsteht durch das Zusammenwirken vieler Organismen ähnlich wie in den intelligenten Infrastrukturen, die uns bereits in Technik und Gesellschaft umgeben. Auch hier lassen sich Grade des autonomen Entscheidens und Handelns unterscheiden.

2. Von der symbolischen und subsymbolischen KI zur hybriden KI

2.1 Symbolische KI: Logik und Deduktion

In einer ersten Phase orientierte sich KI an formalen (symbolischen) Kalkülen der Logik, mit denen Problemlösungen regelbasiert abgeleitet werden können. Man spricht deshalb auch von symbolischer KI. Ein typisches Beispiel ist das automatische Beweisen mit logischen Deduktionen, die sich mit Computerprogrammen realisieren lassen. Automatisierung bedeutet bis zu einem bestimmten Grad auch Autonomie, da Computerprogramme die Beweistätigkeit eines Mathematikers übernehmen. Wissensbasierte Expertensysteme sind Computerprogramme, die Wissen über ein spezielles Gebiet speichern und ansammeln, aus dem Wissen automatisch Schlussfolgerungen ziehen, um zu konkreten Problemen des Gebietes Lösungen anzubieten. Im Unterschied zum menschlichen Experten ist das Wissen eines Expertensystems aber auf eine spezialisierte Informationsbasis beschränkt ohne allgemeines und strukturelles Wissen über die Welt (Puppe 1988; Mainzer 1990). Um ein Expertensystem zu bauen, muss das Wissen des Experten in Regeln gefasst werden, in eine Programmsprache übersetzt und mit einer Problemlösungsstrategie bearbeitet werden. Die Architektur eines Expertensystems besteht daher aus den folgenden Komponenten:

Wissensbasis,
Problemlösungskomponente (Ableitungssystem),
Erklärungskomponente,
Wissenserwerb,
Dialogkomponente.

In dieser Architektur werden zugleich die Grenzen symbolischer KI deutlich: Fähigkeiten, die nicht oder nur schwer symbolisch erfasst und regelbasiert simuliert werden können, bleiben der symbolischen KI verschlossen.

2.2 Subsymbolische KI: Statistik und Induktion

Sensorische und motorische Fähigkeiten werden nicht aus Lehrbuchwissen logisch abgeleitet, sondern aus Beispielen erlernt, trainiert und eingeübt. So lernen wir, uns motorisch zu bewegen und in einer Vielzahl sensorischer Daten Muster und Zusammenhänge zu erkennen, an denen wir unser Handeln und Entscheiden orientieren können. Da diese Fähigkeiten nicht von ihrer symbolischen Repräsentation abhängen, spricht man auch von subsymbolischer KI. An die Stelle der formalen Schlüsse der Logik tritt nun die Statistik der Daten. Beim statistischen Lernen sollen allgemeine Abhängigkeiten und Zusammenhänge aus endlich vielen Beobachtungsdaten durch Algorithmen abgeleitet werden (Vapnik 1998). An die Stelle der Deduktion in der symbolischen KI tritt also in der subsymbolischen KI die Induktion. Dazu können wir uns ein naturwissenschaftliches Experiment vorstellen, bei dem in einer Serie von veränderten Bedingungen (Inputs) entsprechende Ergebnisse (Outputs) folgen. In der Medizin könnte es sich um einen Patienten handeln, der auf Medikamente in bestimmter Weise reagiert.

Dabei nehmen wir an, dass die entsprechenden Paare von Input- und Outputdaten unabhängig durch dasselbe Zufallsexperiment erzeugt werden. Statistisch sagt man deshalb, dass die endliche Folge von Beobachtungsdaten (x₁ , y₂) , … , (x_n , y_n) mit Inputs x_i und Outputs y_i (i = 1, … , n) durch Zufallsvariablen (X₁ , Y₂) , … , (X_n , Y_n) realisiert wird, denen eine Wahrscheinlichkeitsverteilung P_X,Y zugrunde liegt. Algorithmen sollen nun Eigenschaften der Wahrscheinlichkeitsverteilung P_X,Y ableiten. Ein Beispiel wäre die Erwartungswahrscheinlichkeit, mit der für einen gegebenen Input ein entsprechender Output auftritt. Es kann sich aber auch um eine Klassifikationsaufgabe handeln: Eine Datenmenge soll auf zwei Klassen aufgeteilt werden. Mit welcher Wahrscheinlichkeit gehört ein Element der Datenmenge (Input) eher zu der einen oder anderen Klasse (Output)? Wir sprechen in diesem Fall auch von binärer Mustererkennung.

Die derzeitigen Erfolge des Machine Learning scheinen die These zu bestätigen, dass es auf möglichst große Datenmengen ankommt, die mit immer stärkerer Computerpower bearbeitet werden. Die erkannten Regularitäten hängen dann aber nur von der Wahrscheinlichkeitsverteilung der statistischen Daten ab.

Statistisches Lernen versucht, ein probabilistisches Modell aus endlich vielen Daten von Ergebnissen (z.B. Zufallsexperimente) und Beobachtungen abzuleiten.

Statistisches Schließen versucht umgekehrt, Eigenschaften von beobachteten Daten aus einem angenommenen statistischen Modell abzuleiten.

In der Automatisierung statistischen Lernens nehmen neuronale Netze mit Lernalgorithmen eine Schlüsselrolle ein. Neuronale Netze sind vereinfachte Rechenmodelle nach dem Vorbild des menschlichen Gehirns, in denen Neuronen mit Synapsen verbunden sind. Die Intensität der neurochemischen Signale, die zwischen den Neuronen ausgesendet werden, sind im Modell durch Zahlengewichte repräsentiert. Probabilistische Netzwerke haben experimentell eine große Ähnlichkeit mit biologischen neuronalen Netzen. Werden Zellen entfernt oder einzelne Synapsengewichte um kleine Beträge verändert, erweisen sie sich als fehlertolerant gegenüber kleineren Störungen wie das menschliche Gehirn z.B. bei kleineren Unfallschäden. Das menschliche Gehirn arbeitet mit Schichten paralleler Signalverarbeitung. So sind z.B. zwischen einer sensorischen Inputschicht und einer motorischen Outputschicht interne Zwischenschritte neuronaler Signalverarbeitung geschaltet, die nicht mit der Außenwelt in Verbindung stehen.

Tatsächlich lässt sich auch in technischen neuronalen Netzen die Repräsentations- und Problemlösungskapazität steigern, indem verschiedene lernfähige Schichten mit möglichst vielen Neuronen zwischengeschaltet werden. Die erste Schicht erhält das Eingabemuster. Jedes Neuron dieser Schicht hat Verbindungen zu jedem Neuron der nächsten Schicht. Die Hintereinanderschaltung setzt sich fort, bis die letzte Schicht erreicht ist und ein Aktivitätsmuster abgibt (Hornik/ Stinchcombe/ White 1989).

Wir sprechen von überwachten Lernverfahren, wenn der zu lernende Prototyp (z.B. die Wiedererkennung eines Musters) bekannt ist und die jeweiligen Fehlerabweichungen daran gemessen werden können. Ein Lernalgorithmus muss die synaptischen Gewichte so lange verändern, bis ein Aktivitätsmuster in der Outputschicht herauskommt, das möglichst wenig vom Prototyp abweicht.

Ein effektives Verfahren besteht darin, für jedes Neuron der Outputschicht die Fehlerabweichung von tatsächlichem und gewünschtem Output zu berechnen und dann über die Schichten des Netzwerks zurückzuverfolgen. Wir sprechen dann von einem Backpropagation-Algorithmus. Die Absicht ist, durch genügend viele Lernschritte für ein Vorgabemuster den Fehler auf Null bzw. vernachlässigbar kleine Werte zu vermindern.

2.3 Anwendungsbeispiel von statistischem Lernen in KI-Chatbots

Ein spektakuläres Anwendungsbeispiel subsymbolischer KI sind Chatbots wie ChatGPT (Generative Pre-trained Transformer), der wegen seiner verblüffenden Möglichkeiten als automatischer Textgenerator seit dem 30. November 2022 innerhalb weniger Tage mit Millionen von Nutzern mehr Followers hatte als soziale Medien wie z.B. Instagramm und Spotify. ChatGPT kann Texte von Schulaufgaben auf gymnasialem Niveau bis zu Texten von Seminararbeiten mittleren universitären Niveaus generieren. Auf der Grundlage eines „Large Language Models“ kann man sich mit diesem KI-Programm über Businesspläne unterhalten oder das Schreiben eines Lieds, Gedichts oder Romanfragmenten in einem bestimmten Stil in Auftrag geben (ChatGPT 2022).

Tatsächlich beruht das Sprachmodell von ChatGPT auf einer gewaltigen Menge von Texten (Big Data), die dem System von Menschen eintrainiert wurden. Es handelt sich also um ein Beispiel des Machine Learning auf der Grundlage von statistischer Lerntheorie und Mustererkennung, wie es im vorherigen Abschnitt erklärt wurde. Das ehrgeizige Ziel ist dabei, eine zentrale Grenze der symbolischen KI zu überwinden, die in ihren wissensbasierten Expertensystemen auf das Fachwissen von Spezialisten (z.B. medizinisches Fachwissen in einer speziellen medizinischen Disziplin) beschränkt war, sofern es in logisch-regelbasierte Formeln übersetzt werden konnte. Ein Experte wie z.B. ein Mediziner verfügt aber auch über ein unbewusstes Können aufgrund von Erfahrung und Hintergrundwissen, das über das Lehrbuchwissen hinaus in sein Handeln und Entscheiden einfließt.

Bekannt ist das Beispiel einer Fahrschule, in der zunächst regelbasiertes Wissen zur Bedienung des Fahrzeugs und für das korrekte Verhalten im Verkehr nach Geboten und Verboten gelernt wird. Aber zum guten Autofahrer gehört von einer bestimmten Lernstufe ab das unbewusste Können, das auf Erfahrung und Intuition beruht. Was in den Expertensystemen fehlte, war das allgemeine Hintergrundwissen und die Erfahrung und Intuition eines Menschen. Mit Steigerung der Rechenleistung und der Bewältigung großer Datenmassen mit Modellen statistischen Lernens wird nun das Ziel verfolgt, auch das allgemeine „Weltwissen“ von uns Menschen auf die Maschine zu bringen.

Dazu wird der Chatbot mit Texten aus Nachrichten, Büchern, sozialen Medien, online-Foren, Bildern, Filmen und gesprochenen Sprachtexten trainiert. Algorithmen dienen dazu, aus den Trainingsdaten zu lernen. Der Chatbot reproduziert Muster, die er in den gespeicherten Daten erkennt. Das geschieht nach den gleichen Verfahren, mit denen bei der Gesichtserkennung Personenbilder aus Bilddateien erkannt werden. Die reproduzierten Texte werden mit trainierten Beispieltexten verglichen und so durch Algorithmen des verstärkenden Lernens (reinforcement learning) schrittweise verbessert. Dabei können auch Korrekturen durchgeführt werden, wenn Korrelationen der eintrainierten Daten z.B. zu Diskriminierungen führen. Ähnlich wie bei indoktrinierten Menschen, kann ein solches Fehlverhalten aufgrund des Umfangs der eintrainierten Datenmengen nie ausgeschlossen werden. Da diese Chatbots in den sozialen Medien auf große Akzeptanz stoßen, können sie auch gefährliche Desinformationen hervorrufen.

Letztlich ist auch ChatGPT nichts anderes als eine stochastische Maschine, die Daten, Texte, Bilder und Gesprochenes mit Mustererkennungsalgorithmen rekombiniert und rekonfiguriert. Aufgrund der modernen Rechnertechnologien, die gewaltige Datenmengen speichern und schnelle Lernalgorithmen anwenden können, entstehen allerdings verblüffende Ergebnisse, die einen großen Teil von menschlichem Hintergrundwissen und Intuition simulieren. Damit zeigt sich aber auch, auf welchen Mechanismen unsere Konversations- und Kulturwelten beruhen – Reproduktionen und Rekombinationen von Mustern, die weitgehend von Maschinen übernommen werden können. Selbst die Sozial-, Kultur- und Geisteswissenschaften sind davor nicht gefeit, vom Journalismus ganz abgesehen.

Wittgenstein nannte das „Sprachspiele“, die nach bestimmten Regeln funktionieren. Das Originelle besteht häufig nur in einer kleinen Veränderung und Variante der gewohnten Sprachspiele und „Narrative“. Der Autor erinnert sich an sein Studium, als er in den 1960er und 1970er Jahren als Mathematikstudent den „Jargon der Eigentlichkeit“ in geistes- und kulturwissenschaftlichen Seminaren beobachtete und nach einer gewissen Zeit des „Trainings“ im Jargon der verschiedenen ideologischen Richtungen „mitplappern“ konnte. Im Machine Learning ist mittlerweile die Rede von „stochastischen Papageien“. Positiv gewendet eignet sich daher der ChatGPT zur Entlarvung der Mechanismen von Kulturbetrieb und Journalismus. Dort wird man anspruchsvoller werden müssen, um nicht durch Maschinen ersetzt zu werden

ChatGPT löst zwar Mathematikaufgaben bis zu einem gewissen Grad, aber nur auf Grund gewaltiger Datenmengen, die statistisch rekombiniert werden. Ein begabter Schüler löst aber Aufgaben logisch, ohne vorher alle möglichen Textbücher verschlungen zu haben. ChatPCT kennt Zahlen nur, wenn sie von eintrainierten Texten extrahiert werden können. So könnte die Definition einer Primzahl reproduziert werden, wenn dieser Text irgendwo im Speicher von ChatGPT auftaucht. Aber daraus Schlüsse ziehen und entscheiden, ob eine vorliegende Zahl eine Primzahl ist oder nicht, kann ChatGPT nur, wenn entsprechendes Vorwissen eintrainiert wurde. Rechnen, logisches und kausales Denken sind ihm fremd. Es wird geraten und assoziiert. In unserem Buch „Grenzen der Künstlichen Intelligenz“ (Mainzer/Kahle 2022) wurde diese zentrale Schwäche statistischer Lerntheorie und des Machine Learning herausgestellt. ChatGPT kann einfache Computerprogramme nur schreiben, in dem es gespeicherte Vorlagen und Fragmente imitiert und durch Raten rekombiniert – das aber auf verblüffend hohem Niveau, das selbst von „gebildeten“ Menschen nicht zu unterscheiden ist.

2.4 Vom statistischen zum kausalen Lernen

Statistisches Lernen und Schließen aus Daten reichen also nicht aus. Wir müssen vielmehr die kausalen Zusammenhänge von Ursachen und Wirkungen hinter den Messdaten erkennen (Pearl 2009). Diese kausalen Zusammenhänge hängen von den Gesetzen der jeweiligen Anwendungsdomäne unserer Forschungsmethoden ab, also den Gesetzen der Physik, den Gesetzen der Biochemie und des Zellwachstums im Beispiel der Krebsforschung, etc. Wäre es anders, könnten wir mit den Methoden des statistischen Lernens und Schließen bereits die Probleme dieser Welt lösen.

Statistisches Lernen und Schließen ohne kausales Domänenwissen ist blind – bei noch so großer Datenmenge (Big Data) und Rechenpower!

Die Auseinandersetzung zwischen probabilistischem und kausalem Denken ist keineswegs neu, sondern wurde erkenntnistheoretisch bereits in der Philosophie des 18. Jahrhunderts zwischen David Hume (1711-1776) und Immanuel Kant (1724-1804) ausgefochten. Nach Hume beruht alle Erkenntnis auf sinnlichen Eindrücken (Daten), die psychologisch „assoziiert“ werden. Es gibt danach keine Kausalitätsgesetze von Ursache und Wirkung, sondern nur Assoziationen von Eindrücken (z.B. Blitz und Donner), die mit (statistischer) Häufigkeit „gewohnheitsmäßig“ korreliert werden (Hume 1993, 95). Nach Kant sind Kausalitätsgesetze als vernunftmäßig gebildete Hypothesen möglich, die experimentell überprüft werden können. Ihre Bildung beruht nicht auf psychologischen Assoziationen, sondern auf der vernunftmäßigen Kategorie der Kausalität (Kant 1900ff., KrV B 106), die mithilfe der Einbildungskraft für Vorhersagen auf der Grundlage von Erfahrung operationalisiert werden kann. Nach Kant ist dieses Verfahren seit Galileo Galilei in der Physik in Gebrauch, die so erst zur Wissenschaft wurde.

Neben der Statistik der Daten bedarf es zusätzlicher Gesetzes- und Strukturannahmen der Anwendungsdomänen, die durch Experimente und Interventionen überprüft werden. Kausale Erklärungsmodelle (z.B. das Planetenmodell oder ein Tumormodell) erfüllen die Gesetzes- und Strukturannahmen einer Theorie (z.B. Newtons Gravitationstheorie oder die Gesetze der Zellbiologie):

Beim kausalen Schließen werden Eigenschaften von Daten und Beobachtungen aus Kausalmodellen, d.h. Gesetzesannahmen von Ursachen und Wirkungen, abgeleitet. Kausales Schließen ermöglicht damit, die Wirkungen von Interventionen oder Datenveränderungen (z.B. durch Experimente) zu bestimmen.

Kausales Lernen versucht umgekehrt, ein Kausalmodell aus Beobachtungen, Messdaten und Interventionen (z.B. Experimente) abzuleiten, die zusätzliche Gesetzes- und Strukturannahmen voraussetzen.

Ein hochaktuelles technisches Beispiel für die wachsende Komplexität neuronaler Netze sind selbst-lernende Fahrzeuge. So kann ein einfaches Automobil mit verschiedenen Sensoren (z.B. Nachbarschaft, Licht, Kollision) und motorischer Ausstattung bereits komplexes Verhalten durch ein sich selbst organisierendes neuronales Netzwerk erzeugen. Werden benachbarte Sensoren bei einer Kollision mit einem äußeren Gegenstand erregt, dann auch die mit den Sensoren verbundenen Neuronen eines entsprechenden neuronalen Netzes. So entsteht im neuronalen Netz ein Verschaltungsmuster, das den äußeren Gegenstand repräsentiert. Im Prinzip ist dieser Vorgang ähnlich wie bei der Wahrnehmung eines äußeren Gegenstands durch einen Organismus – nur dort sehr viel komplexer.

Wenn wir uns nun noch vorstellen, dass dieses Automobil mit einem „Gedächtnis“ (Datenbank) ausgestattet wird, mit dem es sich solche gefährlichen Kollisionen merken kann, um sie in Zukunft zu vermeiden, dann ahnt man, wie die Automobilindustrie in Zukunft unterwegs sein wird, selbst-lernende Fahrzeuge zu bauen. Sie werden sich erheblich von den herkömmlichen Fahrerassistenzsystemen mit vorprogrammiertem Verhalten unter bestimmten Bedingungen unterscheiden. Es wird sich um ein neuronales Lernen handeln, wie wir es in der Natur von höher entwickelten Organismen kennen.

Wie viele reale Unfälle sind aber erforderlich, um selbstlernende (“autonome”) Fahrzeuge zu trainieren? Wer ist verantwortlich, wenn autonome Fahrzeuge in Unfälle verwickelt sind? Welche ethischen und rechtlichen Herausforderungen stellen sich? Bei komplexen Systemen wie neuronalen Netzen mit z.B. Millionen von Elementen und Milliarden von synaptischen Verbindungen erlauben zwar die Gesetze der statistischen Physik, globale Aussagen über Trend- und Konvergenzverhalten des gesamten Systems zu machen. Die Zahl der empirischen Parameter der einzelnen Elemente ist jedoch unter Umständen so groß, dass keine lokalen Ursachen ausgemacht werden können. Das neuronale Netz bleibt für uns eine „Black Box“. Vom ingenieurwissenschaftlichen Standpunkt aus sprechen Autoren daher von einem „dunklen Geheimnis“ im Zentrum der KI des Machine Learning: “. . .even the engineers who designed [the machine learning-based system] may struggle to isolate the reason for any single action” (Knight 2017).

Zwei verschiedene Ansätze im Software Engineering sind denkbar:

1. Testen zeigt nur (zufällig) gefundene Fehler, aber nicht alle anderen möglichen.

2. Zur grundsätzlichen Vermeidung müsste eine formale Verifikation des neuronalen Netzes und seiner zugrundeliegenden kausalen Abläufe durchgeführt werden.

Zusammengefasst folgt: Machine Learning mit neuronalen Netzen funktioniert, aber wir können die Abläufe in den neuronalen Netzen nicht im Einzelnen verstehen und kontrollieren. Heutige Techniken des Machine Learning beruhen meistens nur auf statistischem Lernen, aber das reicht nicht für sicherheitskritische Systeme. Daher sollte Machine Learning mit Beweisassistenten und kausalem Lernen verbunden werden. Korrektes Verhalten wird dabei durch Metatheoreme in einem logischen Formalismus garantiert (Mainzer 2020a).

2.5 Auf dem Weg zur hybriden KI

Dieses Modell selbstlernender Fahrzeuge erinnert an die Organisation des Lernens im menschlichen Organismus: Verhalten und Reaktionen laufen dort ebenfalls weitgehend unbewusst ab. „Unbewusst“ heißt, dass wir uns der kausalen Abläufe des durch sensorielle und neuronale Signale gesteuerten Bewegungsapparats nicht bewusst sind. Das lässt sich mit Algorithmen des statistischen Lernens automatisieren. In kritischen Situationen reicht das aber nicht aus: Um mehr Sicherheit durch bessere Kontrolle im menschlichen Organismus zu erreichen, muss der Verstand mit kausaler Analyse und logischem Schließen eingreifen. Dieser Vorgang sollte im Machine Learning durch Algorithmen des kausalen Lernens und logischer Beweisassistenten automatisiert wird:

Ziel ist daher eine hybride KI, in der analog zum menschlichen Organismus symbolische und subsymbolische KI verbunden werden.

3. Roboter als KI-Systeme

Mit zunehmender Komplexität und Automatisierung der Technik werden Roboter zu Dienstleistern der Industriegesellschaft. Die Evolution lebender Organismen inspiriert heute die Konstruktion von Robotik-Systemen für unterschiedliche Zwecke (Mainzer 2020b). Mit wachsenden Komplexitäts- und Schwierigkeitsgraden der Dienstleistungsaufgabe wird die Anwendung von KI-Technik unvermeidlich. Dabei müssen Roboter nicht wie Menschen aussehen. Genauso wie Flugzeuge nicht wie Vögel aussehen, gibt es je nach Funktion auch andere angepasste Formen. Es stellt sich also die Frage, zu welchem Zweck humanoide Roboter welche Eigenschaften und Fähigkeiten besitzen sollten.

Humanoide Roboter sollten direkt in der menschlichen Umgebung wirken können. In der menschlichen Umwelt ist die Umgebung auf menschliche Proportionen abgestimmt. Die Gestaltung reicht von der Breite der Gänge über die Höhe einer Treppenstufe bis zu Positionen von Türklinken. Für nicht menschenähnliche Roboter (z.B. auf Rädern und mit anderen Greifern statt Händen) müssten also große Investitionen für Veränderungen der Umwelt ausgeführt werden. Zudem sind alle Werkzeuge, die Mensch und Roboter gemeinsam benutzen sollten, auf menschliche Bedürfnisse abgestimmt. Nicht zu unterschätzen ist die Erfahrung, dass humanoide Formen den emotionalen Umgang mit Robotern psychologisch erleichtern.

Humanoide Roboter haben aber nicht nur zwei Beine und zwei Arme. Sie verfügen über optische und akustische Sensoren. In Bezug auf Platz und Batterielaufzeiten gibt es bisher bei den verwendbaren Prozessoren und Sensoren Einschränkungen. Miniaturisierungen von optischen und akustischen Funktionen sind ebenso erforderlich wie die Entwicklung von verteilten Mikroprozessoren zur lokalen Signalverarbeitung. Ziel der humanoiden Robotik ist es, dass sich humanoide Roboter frei in normaler Umgebung bewegen, Treppen und Hindernisse überwinden, selbständig Wege suchen, nach einem Fall beweglich bleiben, Türen selbständig betätigen und auf einem Arm stützend Arbeit erledigen können. Ein humanoider Roboter könnte dann im Prinzip so gehen wie ein Mensch.

Für die Erreichung der letzten Stufe des Zusammenlebens mit Menschen, müssen sich Roboter ein Bild vom Menschen machen können, um hinreichend sensibel zu werden. Dazu sind kognitive Fähigkeiten notwendig. Dabei lassen sich die drei Stufen des funktionalistischen, konnektionistischen und handlungsorientierten Ansatzes unterscheiden, die nun untersucht werden sollen (Pfeifer/Scheier 2001).

Die Grundannahme des Funktionalismus besteht darin, dass es in Lebewesen wie in entsprechenden Robotern eine interne kognitive Struktur gibt, die Objekte der externen Außenwelt mit ihren Eigenschaften, Relationen und Funktionen untereinander über Symbole repräsentiert.

Man spricht auch deshalb vom Funktionalismus, da die Abläufe der Außenwelt als isomorph in Funktionen eines symbolischen Modells abgebildet angenommen werden. Ähnlich wie ein geometrischer Vektor- oder Zustandsraum die Bewegungsabläufe der Physik abbildet, würden solche Modelle die Umgebung eines Roboters repräsentieren.

Der funktionalistische Ansatz geht auf die frühe kognitivistische Psychologie der 1950er Jahre von z.B. Allen Newell und Herbert Simon zurück (Newell/Simon 1972). Die Verarbeitung der Symbole in einer formalen Sprache (z.B. Computerprogramm) erfolgt wie in der symbolischen KI nach Regeln, die logische Beziehungen zwischen den Außenweltrepräsentationen herstellen, Schlüsse ermöglichen und so Wissen entstehen lassen.

Die Regelverarbeitung ist nach dem kognitivistischen Ansatz unabhängig von einem biologischen Organismus oder Roboterkörper. Danach könnten im Prinzip alle höheren kognitiven Fähigkeiten wie Objekterkennung, Bildinterpretation, Problemlösung, Sprachverstehen und Bewusstsein auf Rechenprozesse mit Symbolen reduziert werden. Konsequenterweise müssten dann auch biologische Fähigkeiten wie z.B. Bewusstsein auf technische Systeme übertragbar sein.

Der kognitivistisch-funktionalistische Ansatz hat sich für beschränkte Anwendungen durchaus bewährt, stößt jedoch in Praxis und Theorie auf grundlegende Grenzen. Ein Roboter dieser Art benötigt nämlich eine vollständige symbolische Repräsentation der Außenwelt, die ständig angepasst werden muss, wenn die Position des Roboters sich ändert. Relationen wie ON(TABLE,BALL), ON(TABLE,CUP), BEHIND(CUP,BALL) etc., mit denen die Relation eines Balls und einer Tasse auf einem Tisch relativ zu einem Roboter repräsentiert wird, ändern sich, wenn sich der Roboter um den Tisch herum bewegt.

Menschen benötigen demgegenüber keine symbolische Darstellung und kein symbolisches Updating von sich ändernden Situationen. Sie interagieren sensorisch-körperlich mit ihrer Umwelt. Rationale Gedanken mit interner symbolischer Repräsentation garantieren kein rationales Handeln, wie bereits einfache Alltagssituationen zeigen. So weichen wir einem plötzlich auftretenden Verkehrshindernis aufgrund von blitzschnellen körperlichen Signalen und Interaktionen aus, ohne auf symbolische Repräsentationen und logische Ableitungen zurückzugreifen. Hier kommt die subsymbolische KI ins Spiel.

In der Kognitionswissenschaft unterscheiden wir daher zwischen formalem und körperlichem Handeln (Valera/Thompson/Rosch 1991). Schach ist ein formales Spiel mit vollständiger symbolischer Darstellung, präzisen Spielstellungen und formalen Operationen. Fußball ist ein nicht-formales Spiel mit Fähigkeiten, die von körperlichen Interaktionen ohne vollständige Repräsentation von Situationen und Operationen abhängen. Es gibt zwar auch Spielregeln. Aber Situationen sind wegen der körperlichen Aktion nie exakt identisch und daher auch nicht (im Unterschied zum Schach) beliebig reproduzierbar.

Der konnektionistische Ansatz betont deshalb, dass Bedeutung nicht von Symbolen getragen wird, sondern sich in der Wechselwirkung zwischen verschiedenen kommunizierenden Einheiten eines komplexen Netzwerks (z.B. neuronales Netz) ergibt. Diese Herausbildung bzw. Emergenz von Bedeutungen und Handlungsmustern wird durch die sich selbst organisierende Dynamik von neuronalen Netzwerken möglich (Marcus 2003).

Sowohl der kognitivistische als auch der konnektionistische Ansatz können allerdings im Prinzip von der Umgebung der Systeme absehen und nur die symbolische Repräsentation bzw. neuronale Dynamik beschreiben.

Im handlungsorientierten Ansatz steht demgegenüber die Einbettung des Roboterkörpers in seine Umwelt im Vordergrund. Insbesondere einfache Organismen der Natur wie z.B. Bakterien legen es nahe, verhaltensgesteuerte Artefakte zu bauen, die sich an veränderte Umwelten anzupassen vermögen.

Aber auch hier wäre die Forderung einseitig, nur verhaltensbasierte Robotik zu favorisieren und symbolische Repräsentationen und Modelle der Welt auszuschließen. Richtig ist die Erkenntnis, dass kognitive Leistungen des Menschen sowohl funktionalistische, konnektionistische und verhaltensorientierte Aspekte berücksichtigen. In diesem Sinn ist der Mensch ein hybrider Organismus.

Richtig ist es daher, wie beim Menschen von einer eigenen Leiblichkeit (embodiment) der humanoide Roboter auszugehen. Danach agieren diese Maschinen mit ihrem Roboterkörper in einer physischen Umwelt und bauen dazu einen kausalen Bezug auf. Sie machen ihre je eigenen Erfahrungen mit ihrem Körper in dieser Umwelt und sollten ihre eigenen internen symbolischen Repräsentationen und Bedeutungssysteme aufbauen können (Mainzer 2009).

Wie können solche Roboter selbstständig sich ändernde Situationen einschätzen? Körperliche Erfahrungen des Roboters beginnen mit Wahrnehmungen über Sensordaten der Umgebung. Sie werden in einer relationalen Datenbank des Roboters als seinem Gedächtnis gespeichert. Die Relationen der Außenweltobjekte bilden untereinander kausale Netzwerke, an denen sich der Roboter bei seinen Handlungen orientiert. Dabei werden z.B. Ereignisse, Personen, Orte, Situationen und Gebrauchsgegenstände unterschieden. Mögliche Szenarien und Situationen werden mit Sätzen einer formalen Logik repräsentiert.

4. Cyberphysical Systems als KI-Systeme

In der Evolution beschränkt sich intelligentes Verhalten keineswegs auf einzelne Organismen. Die Soziobiologie betrachtet Populationen als Superorganismen, die zu kollektiven Leistungen fähig sind (Wilson 2000). Die entsprechenden Fähigkeiten sind häufig in den einzelnen Organismen nicht vollständig programmiert und von ihnen allein nicht realisierbar. Ein Beispiel ist die Schwarmintelligenz von Insekten, die sich in Termitenbauten und Ameisenstraßen zeigt. Auch menschliche Gesellschaften mit extrasomatischer Informationsspeicherung und Kommunikationssystemen entwickeln kollektive Intelligenz, die sich erst in ihren Institutionen zeigt.

Kollektive Muster- und Clusterbildungen lassen auch bei Populationen einfacher Roboter beobachten, ohne dass sie dazu vorher programmiert wurden. Roboterpopulationen als Dienstleister könnten konkrete Anwendung im Straßenverkehr z.B. bei fahrerlosen Transportsystemen oder Gabelstaplern finden, die sich selbständig über ihr Verhalten in bestimmten Verkehrs- und Auftragssituationen verständigen. Zunehmend werden auch unterschiedliche Roboterarten wie Fahr- und Flugroboter (z.B. bei militärischen Einsätzen oder bei der Weltraumerkundung) miteinander interagieren (Mataric/Sukhatme/Ostergaard 2003).

Roodney A. Brooks vom MIT fordert allgemein eine verhaltensbasierte KI, die auf künstliche soziale Intelligenzin Roboterpopulationen ausgerichtet ist (Brooks 2005).Soziale Interaktion und Abstimmung gemeinsamer Aktionen bei sich verändernden Situationen ist eine äußerst erfolgreiche Form von Intelligenz, die sich in der Evolution herausgebildet hat. Bereits einfache Roboter könnten ähnlich wie einfache Organismen der Evolution kollektive Leistungen erzeugen. Im Management spricht man von der sozialen Intelligenz als einem Soft Skill, der nun auch von Roboterpopulationen berücksichtigt werden sollte.

Autonome Reaktionen in unterschiedlichen Situationen ohne Eingreifen des Menschen sind eine große Herausforderung für die KI-Forschung. Entscheidungsalgorithmen lassen sich am besten im realen Straßenverkehr verbessern. Analog verbessert ein menschlicher Fahrer seine Fähigkeiten durch Fahrpraxis.

Als selbstfahrendes Kraftfahrzeug bzw. Roboterauto werden Automobile bezeichnet, die ohne menschlichen Fahrer fahren, steuern und einparken können.

Hochautomatisiertes Fahren liegt zwischen assistiertem Fahren, bei dem der Fahrer durch Fahrerassistenzsysteme unterstützt wird, und dem autonomen Fahren, bei dem das Fahrzeug selbsttätig und ohne Einwirkung des Fahrers fährt.

Beim hochautomatisierten Fahren hat das Fahrzeug nur teilweise eine eigene Intelligenz, die vorausplant und die Fahraufgabe zumindest in den meisten Situationen übernehmen könnte. Mensch und Maschine arbeiten zusammen.

Klassische Computersysteme zeichneten sich durch eine strikte Trennung von physischer und virtueller Welt aus. Steuerungssysteme der Mechatronik, die z.B. in modernen Fahrzeugen und Flugzeugen eingebaut sind und aus einer Vielzahl von Sensoren und Aktoren bestehen, entsprechen diesem Bild nicht mehr. Diese Systeme erkennen ihre physische Umgebung, verarbeiten diese Informationen und können die physische Umwelt auch koordiniert beeinflussen. Der nächste Entwicklungsschritt der mechatronischen Systeme sind die „Cyberphysical Systems“ (CPS), die sich nicht nur durch eine starke Kopplung von physischem Anwendungsmodell und dem Computer-Steuerungsmodell auszeichnen, sondern auch in die Arbeits- und Alltagsumgebung eingebettet sind (z.B. integrierte intelligente Energieversorgungssysteme) (Lee 2008, acatech 2011). Durch die vernetzte Einbettung in Systemumgebungen gehen CPS-Systeme über isolierte mechatronische Systeme hinaus.

Cyberphysical Systems (CPS) bestehen aus vielen vernetzten Komponenten, die sich selbständig untereinander für eine gemeinsame Aufgabe koordinieren. Sie sind damit mehr als die Summe der vielen unterschiedlichen smarten Kleingeräte im Ubiquitous Computing, da sie Gesamtsysteme aus vielen intelligenten Teilsystemen mit integrierenden Funktionen für bestimmte Ziele und Aufgaben (z.B. effiziente Energieversorgung) realisieren. Dadurch werden intelligente Funktionen von den einzelnen Teilsystemen auf die externe Umgebung des Gesamtsystems ausgeweitet. Wie das Internet werden CBS zu kollektiven sozialen Systemen, die aber neben den Informationsflüssen zusätzlich (wie mechatronische Systeme und Organismen) noch Energie-, Material- und Stoffwechselflüsse integrieren.

Industrie 4.0 spielt auf die vorausgehenden Phasen der Industrialisierung an. Industrie 1.0 war das Zeitalter der Dampfmaschine. Industrie 2.0 war Henry Fords Fließband. Das Fließband ist nichts anderes als eine Algorithmisierung des Arbeitsprozesses, der Schritt für Schritt nach einem festen Programm durch arbeitsteiligen Einsatz von Menschen ein Produkt realisiert. In Industrie 3.0 greifen Industrieroboter in den Produktionsprozess ein. Sie sind allerdings örtlich fixiert und arbeiten immer wieder dasselbe Programm für eine bestimmte Teilaufgabe ab. In Industrie 4.0 wird der Arbeitsprozess in das Internet der Dinge integriert. Werkstücke kommunizieren untereinander, mit Transporteinrichtungen und beteiligten Menschen, um den Arbeitsprozess flexibel zu organisieren.

Die Literaturnachweise befinden sich am Ende des zweiten Teils dieses Artikels:

Verantwortungsvolle Künstliche Intelligenz (Teil 2)

Der Text dieses Beitrags steht – soweit nicht anders gekennzeichnet – unter der Lizenz Creative Commons Namensnennung Weitergabe unter gleichen Bedingungen 4.0 International (CC BY-SA 4.0). Details zur Lizenz finden Sie unter https://creativecommons.org/licenses/by-sa/4.0/legalcode