Kann KI Mediation? - KI Konfliktanalyse & -prognose - Part I - Folge 1
by Monika Ortega y Strupp
KI Konfliktanalyse & -prognose (Part I)
Oktober 2024
Kann KI Mediation?
KI Konfliktanalyse & -prognose
Part I
Konflikte sind so alt wie das Leben selbst. Sie zu verstehen, mit ihnen effizient umzugehen verspricht, die eigenen Energien zu schonen und einen nicht zu unterschätzenden Vorteil im Leben und Überleben. Das gilt nicht nur in großen politischen Konflikten, sondern auch in persönlichen, privaten, zwischenmenschlichen. Mediation ist eine Möglichkeit für einen Weg aus Konflikten heraus zum Finden von Konsenslösungen.
In der heutigen Zeit stellen sich die Fragen: Inwieweit hat die KI – genauer - in diesem Bereich bereits Einzug gehalten? Welche Vorteile bietet die Einbeziehung von KI in Konflikte? Welche Risiken gibt es? Welche Möglichkeiten?
Deep Learning Models (DLMs)
Im Folgenden verwende ich die Begriffe
Künstliche Intelligenz (KI)
und Deep Learing Model (DLM)
als Synonyme, obwohl es noch diverse andere KIs gibt.*
In dieser ersten Artikelfolge möchte ich für die Beantwortung dieser Fragen zunächst Grundlagen zum Verständnis dieser Technologie schaffen.
Wie funktionieren KIs?
Um verstehen zu können, wie derzeit KIs bzw. DLMs einsetzbar sind, muss man zunächst verstehen, wie sie funktionieren. Die Entwicklung künstlicher Intelligenz besteht nicht erst seit gestern und trägt Jahrzehnte an Geschichte in sich.
Im Kern steht die Frage:
Kann eine Maschine denken / lernen wie ein Mensch?
Natürlich lässt sich die Frage stellen, ob das erstrebenswert ist - führt hier aber zu weit.
*
Derzeit genießen
Deep Learning Models
(noch) einen großen Hype. Sie basieren auf der Verwendung von neuronalen Netzen. Ganz grob erklärt, dient darin die Funktionsweise der natürlichen Nervenzellen als Vorbild: Es können Signale in eine Nervenzelle hineingehen und Signale können die Nervenzelle wieder verlassen. Anders: es gibt Input-Signale und Output-Signale. Ein technisch konstruiertes neuronales Netz besteht aus einer Topologie von technischen Neuronen. Abhängig von der Neuronenart und Architektur können dort Neuronen unterschiedliche Aufgaben übernehmen.Abbildung 1:
Vorstellung von ChatGPT 4 eines biologischen neuronalen NetzesAbbildung 2:
Ein technisches neuronales Netz mit mehreren Neuronenschichten
In Abb.1 ist eine abstrakte Vorstellung von mehreren biologischen Neuronen, die miteinander in einem Strang verbunden sind. In solchen Nervenverbindungen können Signale aufgenommen, wahlweise erzeugt oder nicht erzeugt werden und so an verschiedene Verbindungspunkte weitergeleitet werden. Gegenübergestellt ist in Abb.2 eine Darstellung eines technischen neuronalen Netzes mit Neuronen, die in einer Topologie mit verschiedenen Schichten angeordnet sind. Auch in diesem Netz werden Eingangssignale verarbeitet und Ausgangssignale erzeugt.
Deep Learning Models
Deep Learning Models bestehen aus neuronalen Netzen und tragen ihren Namen aufgrund ihrer Architektur. Ihr architektonischer Aufbau besteht aus verschiedenen, versteckten Schichten oder
Tiefen
(depths)
von Neuronen. Durch diese Schichten können sie komplexe Muster und Repräsentationen aus großen Datenmengen lernen. Und sie benötigen große Datenmengen!
Ein Deep Learning Model, welches zur Generierung von Sprache verwendet wird, wird als
Large Language Model (LLM)
bezeichnet. Es wird zur Berechnung von Wahrscheinlichkeiten für Sprachsequenzen trainiert. Um es mit einfachen Worten zu sagen: Die Aufgabe besteht in der Berechnung der Wahrscheinlichkeit, wie ein Satz oder Text weitergeht. Wir kennen das in vereinfachter Form, wenn wir ungeduldig sind, wenn wir jemandem zuhören. Dieser sagt "Ich esse gerade ein ...". Und in Gedanken ergänzen wir diesen Satz mit dem Wort "... Brot". Wenn wir es nicht wissen, kann es aber in Wahrheit ein Gummibärchen sein. Die berechneten Sprachsequenzen von LLMs können natürlich sehr viel komplexer sein.Wird ein LLM von Grund auf trainiert, benötigt es Milliarden von Texteinheiten
(Tokens)
. Das ChatGPT-Modell GPT-3.5 ist ein solches Large Language Model und wurde mit ca. 300 Milliarden Wörtern aus dem Internet trainiert, die insgesamt eine Datengröße von ca. 570 GB hatten.Über eine solche Menge an Daten verfügen die wenigsten Unternehmungen.
Um sich das besser vorstellen zu können: Nehmen wir an, ein Mensch kann pro Stunde 140 Wörter pro Minute sprechen. Und nehmen wir weiter an, er könnte das 12 Stunden am Tag ununterbrochen tun. Dann wäre es ihm möglich, an einem Tag ca. hunderttausend Wörter zu sprechen. Wenn ein Mensch das jeden Tag machen könnte, würde er ca. 8.000 Jahre benötigen, um ein LLM wie ChatGPT zu unterrichten.
Klassische Programme, wie Such- oder Sortierverfahren, basieren in der Regel auf deterministischen Algorithmen. Der Programmablauf wird durch Regeln bestimmt. Dieselbe Eingabe erzeugt dieselbe Ausgabe. DLMs sind häufig anders konzipiert.
Ein Deep Learning Model konstruiert aufgrund von Beispielen Generalisierungen und überträgt diese auf neue Daten. DLMs können auch nicht-deterministische Ergebnisse liefern. Diese sind Vorhersagen, basierend auf statistischen Verteilungen, die sich auch bei gleicher Eingabe unterscheiden können.
Um es klar zu formulieren: Deep Learning Models
berechnen Wahrscheinlichkeiten
, auch wenn man es den Ausgaben nicht ansieht. Es ist wichtig zu verstehen, dass die Ausgaben einer KI nicht auf Fakten und Herleitungen, sondern auf Verteilungen und Ähnlichkeiten basieren.Eine Eingabe in ChatGPT erzeugt die Wahrscheinlichkeit einer Antwortsequenz. ChatGPT zeigt dabei nur die Sequenz an und nicht ihre zugehörige Wahrscheinlichkeit. Und da Wahrscheinlichkeiten nicht unbedingt zutreffen, ist auch die Ausgabe von ChatGPT nicht notwendigerweise wahr.
Abbildung 3:
DLM Midjourney generiertes Bild von Händen mit je sechs Fingern, bei der Aufgabe sich einen Handshake [..] vorzustellenBildgeneratoren liefern derzeit immer noch einen häufigen Fehler: die Darstellung von mehr oder weniger als fünf Fingern an einer menschlichen Hand (siehe Abbildung 3). Das ist nicht verwunderlich, denn ein DLM kann nicht zählen. Es berechnet die Wahrscheinlichkeit, was für ein Bildteil neben dem Bildteil eines Fingers ist. Und wie hoch ist die Wahrscheinlichkeit für eine KI, dass in einer Abbildung neben einem Finger ein Finger ist?
Das Aufbauen einer DLM für ein spezifisches Aufgabengebiet basiert zunächst auf einer Trainingsphase. In dieser Phase werden der KI positive und negative Beispiele zur Verfügung gestellt. Aus diesen Trainingsdaten kann eine KI das Erkennen von Mustern bzw. Generalisierungen erlernen. Die Testabdeckung und Qualität der Trainingsbeispiele bestimmen dabei die Qualität des Lernens. Kurz, im schlimmsten Fall: Bullshit in, Bullshit out!
Abbildung 4:
Aus Trainingsbeispielen lernen – links: Unteranpassung (underfitting), mitte: ideal, rechts: Überanpassung (overfitting)Gerade bei einer kleinen Datenbasis für das Training besteht die Gefahr, dass das zu trainierende Modell keine idealen Muster finden kann. Bei einer kleinen oder schlechten Abdeckung von Trainingsbeispielen können
Unteranpassung
(Underfitting
), Überanpassung
(Overfitting
) oder katastrophales Vergessen
bei der KI auftreten. (Siehe Abbildung 4)Wird ein Modell in der Trainingsphase mit einer schlechten Beispielabdeckung trainiert, kann das zur Überanpassung führen (Abb.4, rechts). Das Modell kann dann zwar die Trainingsdaten gut erkennen, versagt aber bei der Generalisierung. Bei einer Unteranpassung kann die KI ihr Lernziel aufgrund einer zu geringen Trainingsdatenabdeckung nicht erreichen (Abb.4, links). Das Modell kann seine Aufgabe nicht erfüllen. Bei spezifischem Lernen kann es auch dazu kommen, dass das neu erlernte Muster die bereits von der KI erkannten verdrängt. Dann
vergisst
das Modell sein vorheriges Wissen, was als katastrophales Vergessen bezeichnet wird.Diese Phänomene möchte man natürlich vermeiden, weshalb die Auswahl der richtigen Trainingsbeispiele und der Trainingsprozess für ein DLM extrem wichtig sind und die Datenbasis nicht zu klein sein sollte.
Will man nun eine KI im Bereich der Konfliktanalyse oder -prognose einsetzen, stellen sich die Fragen, wie und in welcher Form man Beispieldaten für eine KI, womöglich in großer Zahl, hernehmen soll.
Die Stärken und Schwächen von DLMs
Die Stärken von DLMs liegen in der Erkennung von Mustern. Also genauer: im Erlernen von Mustern und der Vorhersage und Einordnung von Werten basierend auf Wahrscheinlichkeiten. Eine DLM kann aus einer Unmenge an Daten Dinge lernen, wofür dem menschlichen Gehirn die Kapazität fehlt.
Dabei kann eine DLM dieses Erlernen von Mustern dazu verwenden, um Klassifizierungen vorzunehmen, Folgewerte vorherzusagen, Sequenzen zu vervollständigen, ähnliche Werte zur Eingabe zu erzeugen, Entscheidungen zu treffen oder Anomalien zu erkennen.
Douglas Adams beschreibt in seinem Roman
Per Anhalter durch die Galaxis
die Antwort des Supercomputers Deep Thought
, der nach sehr langer Bedenkzeit auf die Frage nach dem Leben, dem Universum und dem ganzen Rest
die Antwort 42 liefert. Deep Thought ist in Bezug auf die Herleitung mit den heutigen DLMs vergleichbar. Er ist eine Blackbox. Abgesehen davon, dass in der Geschichte niemand mehr die genaue Frage kennt, kann die Antwort des Supercomputers wahr sein oder auch nicht. Die Herleitung dieser Antwort ist nicht bekannt.Wie eine DLM auf ihre Muster kommt, ist ihr Geheimnis. Für den Mensch ist die KI eine Blackbox.
Was eine KI lernt, kann sie (derzeit) auch nicht erklären. Sie erkennt eigene Muster, was Menschen sowohl positiv als auch negativ überraschen kann.
Zum Beispiel entwickelte Amazon eine KI im HR-Bereich. Diese KI hatte das Ziel, schnell und einfach die besten Bewerber zu bestimmen. Als Trainingsdaten wurden Bewerbungen von einem Zeitraum über zehn Jahre verwendet. Mit der Zeit stellte sich heraus, dass die KI Männlichkeit als Qualitätsmerkmal von Technikern festgelegt hatte. Die KI hatte aus den Bewerbungen ein Muster gelernt: Techniker sind männlich. Es gab so wenig Frauen in der Technik und in den Trainingsdaten lagen so wenig Bewerbungen von Frauen vor, dass die KI Männlichkeit für ein qualitatives Hauptmerkmal des Technikerberufs hielt.
Ein anderes Beispiel für ein überraschendes Muster liefert die KI, die es lernte, anhand der Stimme von Probanden Diabetes diagnostizieren zu können.
Abbildung 5:
Mögliche Gedankenschritte
von o1 auf die Frage Was ist 13 x 12?
(Chain-of-Thought)
Auch o1 von OpenAI basiert auf denselben Prinzipien wie alle DLMs. Die vorgeführte Deduktion, das
Denken
von o1 (siehe Abb.5) sind nur erlernte Muster. Sie wurden durch Beispiele trainiert und werden von o1 angewendet. Die einzelnen Gedankenschritte
bestehen immer noch aus der Berechnung der Wahrscheinlichkeit von Sequenzen, genau wie der Endgedanke, die erzeugte Antwort. Sie können wahr sein oder auch nicht. Das ist kein Verstehen in dem Sinn, dass ein Prinzip erfasst, formuliert und auf eine neue Aufgabe angewendet wird.Die richtig große Stärke derzeitiger KIs ist also die Fähigkeit, unter der Einbeziehung großer Datenmengen selbstständig Muster zu erlernen und damit Ähnlichkeiten, Klassifizierungen, Vorhersagen oder Prognosen zu berechnen. Herleitungen beherrschen sie nicht, ihre Ergebnisse sind nicht-deterministisch und nicht notwendigerweise wahr.
Eine KI zu trainieren, ist teuer. Sie benötigt sowohl Hardware mit entsprechender Kapazität als auch Energie, sowohl in der Trainingsphase als auch im Betrieb. Auch die menschliche Bearbeitung von Trainingsbeispielen trägt zu den Kosten bei. In Realisierungen stellt sich also immer die Frage, ob die Ergebnisse, die eine KI gibt und die nicht korrekt sein müssen, einen so großen Gewinn darstellen, dass sie die Kosten überwiegen.
Wie können die Fähigkeiten von KIs bewertet werden?
Um eine KI mathematisch zu bewerten, wird ihre Fähigkeit betrachtet, neue Werte treffsicher vorherzusagen. Betrachten wir eine einfache Klassifikationsaufgabe, wie zum Beispiel:
Was ist eine Kuh?
(Siehe Abb.6) Nehmen wir an, ein KI-Modell bewertet dazu Eingaben mit positiv, falls es sich um eine Kuh handelt, und negativ, falls nicht. Fiktive Ergebnisse hierzu sind in Abbildung 7 dargestellt.
Abbildung 6:
Beispiel Klassifikationsaufgabe: Was ist eine Kuh?Abbildung 7:
Eine KI bewertet, was eine Kuh ist mit positiv oder negativ.Um die Fähigkeiten dieser KI zu evaluieren, bewerten wir deren Ergebnisse. Welche Ergebnisse sind richtig und welche sind falsch? (Siehe Abb.8) Hierzu lässt sich eine sogenannte
Confusion Matrix
aufstellen. (Siehe Abb.9) Die Genauigkeit der Berechnungen der KI lassen sich hier im Verhältnis der Werte zueinander betrachten. In diesem Beispiel hat die KI: vier richtig vorhergesagte positive (Kuh richtig erkannt)
, drei richtig vorhergesagte negative (keine Kuh, richtig erkannt)
, eine falsch vorhergesagte negative (Kuh, nicht erkannt)
und eine falsch vorhergesagte positive (falsch als Kuh erkannt)
Einordnung vorgenommen. Mathematisch lassen sich hiermit sehr genaue Angaben über die Präzision und dem Verhalten der KI aufstellen.Abbildung 8:
Evaluation der AI-Ergebnisse: Was ist eine Kuh?Abbildung 9:
Eine Confusion-Matrix zu den KI-Ergebnissen.Was nicht in den mathematischen Werten zu sehen ist, sind die Auswirkungen einzelner falsch eingeordneter Werte. Falsche Einordnungen einer KI bei Klassifikationen oder falsche Antworten oder Ergebnisse bei generativen AIs können sehr weitreichende Folgen für Individuen haben. Was ist mit der Kuh, die keine Kuh ist? Was ist mit dem Zebra, das eine Kuh ist? - Wir Menschen machen auch Fehler, ist eine KI darin besser oder schlechter? Was passiert mit den Fehlern?
Um den Einsatz einer KI zu bewerten, ist es nicht nur wesentlich, ihr Ziel und ihre Funktionsweise zu beurteilen, sondern auch die Auswirkungen, die sie auf Individuen, Interaktionen und Menschen haben kann. Das betrifft nicht nur den Einsatz als Instrument im regulären Betrieb und den Sinn, sondern auch Fehlfunktionen, möglichen Missbrauch und fehlerhafte Ergebnisse im normalen Einsatz.
Was bringt diese Vielfalt an Fähigkeiten der KI in Konflikten mit sich? Und was für Risiken gibt es, sie in Konflikten einzusetzen?
------------------ ENDE PART I - Folge 1 ------------------------
Ausblick
Die Ergebnisse moderner KI sind beeindruckend. Die Kapazitäten zur Datenaufnahme übersteigen die Fähigkeiten eines Menschen um ein Vielfaches. Die Ergebnisse sind berechnete Wahrscheinlichkeiten. Lohnt sich der Einsatz von KI in der Konfliktanalyse und -prognose? Welche Möglichkeiten gibt es? Wie interressant oder vorteilhaft ist es, eine KI in der Unterstützung zur Vorhersage von Konflikten einzusetzen? Wie kann man das machen?
Mit diesen und weiteren Themen geht es auch weiter in PART I - Folge 2
Literatur & Quellen
(1) Angelehnt an einen Vortrag im KI Campus über Natural Language Processing von Salar Mohtaj, Deutsches Forschungszentrum für Künstliche Intelligenz, TU Berlin
(2) Quelle: „ChatGPT: Alles, was Sie über das GPT-4-Tool von OpenAI wissen müssen“, Alex Hughes, September 25, 2023
(3) Quelle: „An Introductory Guide to Fine-Tuning LLMs“, Joseph Ferrer, August 1, 2024
(4) Vorbild für die Abbildung aus „Machine Learning tips and tricks cheatsheet“, Afshine Amidi und Shervine Amidi, Stanford University, Herbst 2018
(5) Für ein kurzes Zitat: „Per Anhalter durch die Galaxis“ orig: „The Hitchhiker’s Guide to the Galaxy“ Douglas Adams
(6) Quelle: „Amazon Pulled the Plug on an AI Recruitment Tool That Was Biased Against Women“, Samantha Cole, October 10, 2018
(7) Quelle: „New AI can screen for diabetes in seconds by listening to your voice“, Anthony Cuthbertson, October 18 2023