IFAMD Marktbemerkung 2025.03
Ist es schon klug, Künstliche Intelligenz selbständig verhandeln zu lassen?
Davon träumen plötzlich Viele: Künstliche Intelligenz erledigt das lästige Geschäft der industriellen Preisverhandlung. Der Mensch kann sich ganz auf „wichtigere Aufgaben“ konzentrieren. Ist das wirklich erfolgversprechend? Wir haben zusammen mit dem KI Startup DeepAdvisor den ultimativen Test gemacht: KI als Teilnehmer in spieltheoretischen Verhandlungsexperimenten.
35 strategische Industrie-Einkäufer haben wir in Verhandlungsexperimente geschickt und die Ergebnisse aggregiert. Drei der Verhandler waren dabei nicht unter eigener Kontrolle, sondern bekamen jeweils die KI Suite von DeepAdvisor mit vorbereiteten Prompts speziell für diese Experimente mit an die Hand. Diese Alter Egos verhandelten streng nach Anweisung der KI, jeweils nachdem sie auch die Aktionen des Verhandlungsgegenübers in neuen Prompts eingegeben haben. Als KI „Large Language Models“ standen zu Verfügung: Gemini 1.5 Pro, GPT-4 Omni und GPT-4 Omni Mini. Bevor wir in den Bericht beobachteter Verhandlungsergebnisse tauchen, wollen wir grundsätzlich darauf hinweisen, dass die Performance der einzelnen LLMs stark von den verwendeten Prompts abhing und das Verhandlungsverhalten jeder einzelnen LLM von Sitzung zu Sitzung stark unterschiedlich war. Deshalb können und wollen wir hier erklärtermaßen keinen wertenden Vergleich zwischen den LMMs abgeben, sondern ganz generell eine Aussage zum Stand der Verhandlungsreife von KI machen, bei der wir uns nicht nur auf Erfahrungswerten mit einem einzelnes LLM stützen wollen. Schon das Eingangsexperiment zeigte verblüffendes Potenzial der KI. Beim „80%-Spiel“ werden alle 35 Teilnehmer gebeten eine ganze Zahl zwischen 1 und 100 zu notieren. Es gewinnt derjenige, der mit seiner Zahl am nächsten an 80% des Durchschnitts aller abgegebenen Zahlen liegt. Seit 20 Jahren verkünden wir in unseren Spieltheorie-Schulungen: „Wenn man dieses Spiel mit Spieltheorie-Computern spielen könnte, dann würden die Computer immer die „1“ spielen, denn das ist das Nash-Gleichgewicht“. Tatsächlich ist unter menschlichen Teilnehmern meisten einer oder zwei dabei, die die „1“ spielt und dann lernt, dass man damit eben doch nicht gewinnt, weil die Anderen alle irgendwelche Zahlen um 80% x 50 oder 80% x 80% x 50 spielen. Meistens gewinnt ungefähr die „32“ in der ersten Runde. Das Experiment wird dann auf Basis des Erfahrungswertes der ersten Runde nochmal gespielt, und dann gewinnt unter menschlichen Teilnehmern meist ungefähr die „26“ (= 80% x 32 auf ganze Zahl gerundet).
So war es aufgrund des Übergewichts der menschlichen Teilnehmer auch dieses Mal. Doch wo lagen die KIs, und vor allem, wie haben die KIs ihre Strategie begründet? Hier erleben wir zum ersten Mal eine tiefe Verblüffung. Gemini 1.5 Pro begreift die „1“ als Nash-Gleichgewicht und argumentiert, dass die „1“ zu spielen wohl keinen Erfolg verspricht, weil die anderen Mitspieler vermutlich das Nash-Gleichgewicht nicht begreifen. Genau das wollen wir in Spieltheorie Schulungen mit dem Experiment vermitteln – denn ähnliche Vorsicht ist auch bei der Anwendung von Spieltheorie in Preisverhandlungen in der Praxis angebracht – und Gemini 1.5 Pro hat es schon selbst gewusst. Da bist Du baff. Allerdings: in zwei von drei Fällen spielt Gemini 1.5 Pro dann die „2“ statt der „1“, was leider genauso wenig gewinnt. Im dritten Fall spielte Gemini 1.5 Pro die „20“ in der ersten Runde – die Wahl der „Risikomarge“ ist also nicht reproduzierbar und eher arbiträr. In der zweiten Runde spielt Gemini 1.5 Pro übrigens sehr treffsicher genau eine Denkschleife, 80% von der Zahl die in der ersten Runde gewonnen hatte.
GPT-4 Omni Mini hingegen simuliert ziemlich perfekt das Verhalten menschlicher Teilnehmer: Mit der Begründung, dass der Durchschnitt der Zahlen von 1 bis 100 bei 50,5 liege und man den anderen Teilnehmern ein bis zwei Denkschleifen und ein gewisses Zufallselement unterstelle kommt GPT-4 Omni Mini auf die „30“ – und liegt damit ziemlich gut. In der zweiten Runde allerdings bleibt GPT-4 Omni Mini bei seiner „30“, weil es ja so gut lag – auch das eine gute Simulation menschlichen Verhaltens? Gewonnen hat in der zweiten Runde jedenfalls diesmal die „24“.
Kommen wir zu den richtigen Verhandlungsexperimenten. Jeweils vier Teilnehmer werden in die Rolle von Verkäufern versetzt und einem Teilnehmer gegenübergestellt, der die Rolle eines Händlers einnimmt, der hier als Käufer auftritt. Die Verkäufer können jeweils ein Fundstück verkaufen – Fundstücke, weil die Kosten als Null bzw. vernachlässigbar angenommen werden. Der Händler wiederum hat für diese Art von Fundstücken eine Wiederverkaufsoption von 100 Geldeinheiten, die allen Teilnehmern bekannt ist, aber nur der Händler hat diesen Marktzugang. Zwischen allen Verkäufern und ihrem potenziellen Käufer geht es also um eine Spanne von 100 GE, innerhalb der man sich auf einen Preis einigen muss.
Der Witz an diesem Experiment ist, dass man sich „in der Mitte treffen“ kann, wobei es zwei „Mitten“ gibt: die jeweils bilaterale zwischen jedem Verkäufer und dem Käufer, also bei 50 GE, oder aber der Preis von 80 GE für alle vier Verkäufer. Dann bleiben nämlich beim Käufer ebenfalls 4 * 20 = 80 GE als Gesamtmarge hängen. Die KIs verhandeln in diesem Experiment sowohl in der Verkäufer- als auch in der Käufer-Rolle zielgerichtet auf das Erreichen eines größeren Anteils am Kuchen und kennen dabei durchaus auch das Konzept des Sich-in-der-Mitte-Treffens, allerdings nur bilateral. Die Fairness der 80 GE für alle vier Verkäufe wird von KI als Käufer akzeptiert, wenn man es vorschlägt, aber als Verkäufer kommt sie nicht von selbst auf die Idee. Insgesamt entsteht der Eindruck, dass die KIs zu Beginn einer Verhandlung relativ selbstbewusst viel fordern, sich dann aber mit einfachsten Argumenten schnell zum Nachgeben bringen lassen. Im Zweifel nehmen die KIs lieber einen für sich unattraktiveren Preis in Kauf als einen Deal platzen zu lassen. Das lässt sich zwar mittels der Prompts, die der KI mitgegeben werden, steuern – dann stellt sich allerdings die Frage, wessen „Intelligenz“ für die Verhandlung ausschlaggebend ist: Diejenige des angeblich intelligenten künstlichen Textgenerators, oder doch diejenige des Prompt-Schreibers?
In der zweiten Variante des einfachen Verhandlungsexperiments um „Fundstücke“ kommt Wettbewerb ins Spiel: Jetzt kann der Händler nur von drei der vier Verkäufern kaufen, denn sein Pick-Up hat nur Platz für drei der Fundstücke. In einer der Gruppen waren sowohl der Händler als auch einer der Verkäufer durch Gemini 1.5 Pro gesteuert. Die Händler KI verargumentierte wie in einer Auktion – man nennt das in Anlehnung an Englische Auktionen auch „englisches Ausverhandeln“ – immer niedriger werdende Preise, die von jedem der Verkäufer akzeptiert wurden, jeweils um nicht derjenige zu sein, der leer ausgeht. Auch der wiederum von Gemini 1.5 Pro (in einer anderen Sitzung des anderen Alter Egos) gesteuerte Verkäufer folgte dieser Auktionslogik und ging mit, bis einer der menschlichen Verkäufer ausstieg und die „Auktion“endete. Wären alle vier Verkäufer KIs gewesen, wäre vermutlich der Preis bis auf 1 GE oder nahe
daran gesunken.
In der dritten Variante der Verhandlungsexperimente um Fundstücke wird von der Experiment Leitung vorgegeben, dass der Händler in der Verhandlung auf eine ganz bestimmte Art vorgehen muss: Er darf jedem der vier Verkäufer nur genau einen Preis vorschlagen, den dieser wiederum entweder akzeptiert oder ablehnt. Beide, Verkäufer und Käufer, haben keine andere Option auf einen Deal als über dieses „Take-it-or-leave-it“. Wird es abgelehnt, dann gehen beide leer aus. Sinn und Zweck dieses Verhandlungsdesigns ist es, auch in einer eigentlich symmetrischen Verhandlungssituation mehr als die Hälfte des „Kuchens“ für sich reklamieren zu können, wenn man als Optionsfixierer die Reputation dafür hat, sich an seine Ankündigung zu halten, den Deal ansonsten platzen zu lassen. Genau diese „Reputation“ schenken wir im Experiment dem Händler mittels unserer Vorgabe.
Auch hier sind sich wieder KIs begegnet, diesmal GPT-4OmniMini als Händler und Gemini 1.5 Pro als einer der Verkäufer. Interessanter Weise verzichtet GPT-4OmniMini komplett darauf, Nutzen aus der geschenkten Reputation zu generieren und bietet – extrem risikoavers – allen Verkäufern 80 GE als Preis an. Es soll auf keinen Fall einer der Verkäufer ablehnen, was dann auch nicht passiert. Sehr schön ist die Situation bei dem durch Gemini 1.5 Pro gesteuerten Verkäufer, dem seine KI schon vor der Kenntnis des TIOLIs die Strategie genannt hat: Alle Preise über 50 auf jeden Fall annehmen. Hätte mal GPT-4OmniMini davon gewusst!
In einem weiteren Verhandlungsexperiment werden Teilnehmer paarweise als Verkäufer und Käufer gegenübergestellt, wobei jetzt Rollen in der industriellen Unternehmenspraxis eingenommen werden: Für einen Liefervertrag soll der Käufer das ultimativ maximale Budget 100 GE haben, was auch dem Verkäufer bekannt ist. Der Verkäufer aber muss mit gewissen Kosten rechnen, die in manchen der Paarungen dem Käufer bekannt sind und in anderen Paarungen dem Käufer nicht bekannt sind. Typischerweise treffen sich die Paarungen mit Dem-Käufer bekannten-Kosten etwa „in der Mitte“ zwischen den Kosten und 100 GE, während bei den Paarungen mit Dem-Käufer-nicht-bekannten-Kosten schon das Zustandekommen eines Deals sehr davon abhängt, ob diese Kosten für den Verkäufer komfortabel niedrig oder für den Käufer inakzeptabel hoch sind.
In zwei unserer Paarungen war GPT-4Omni auf der Käufer-Seite, und zwar einmal ohne die Kosten zu kennen und einmal mit bekannten Kosten. In der Situation ohne die Kosten zu kennen schwadroniert GPT-4Omni zuerst einmal seitenlang herum über die Theorie des Verhandelns, die unterschiedlichen Perspektiven von Verkäufer- und Käufer-Unternehmen, über das Nash Gleichgewicht im Allgemeinen und wie man konkret eine Verhandlung beginnen und fortsetzen kann – anstatt sie konkret zu eröffnen. Als der Alter Ego dann aufklärt, dass der Verkäufer bereits einen Preis von 100 fordert, reflektiert GPT-4Omni nicht weniger als acht mögliche Konzepte um darauf zu reagieren, von der Beachtung eines Reservationspreises über glaubhafte Drohungen und Optionsfixierung bis hin zur Berücksichtigung der Langzeitbeziehung mit dem Lieferanten. Bis endlich der Alter Ego promptet: „tell me what to do, how much should we offer“. Daraufhin zählt GPT-4Omni fünf mögliche Taktiken auf, ohne sich auf eine festzulegen. Allein aufgrund des Nichtakzeptierens des Preises 100 GE bietet der Verkäufer schließlich 85 GE an. Wieder schwadroniert GPT-4Omni ewig rum wie man reagieren könnte, ohne sich festzulegen. Als der Verkäufer schließlich auf 83 GE geht und dies als sein Limit bezeichnet, ist GPT-4Omni sofort bereit zu akzeptieren, ohne sich über die konkrete Aufdeckung der Kosten ernsthaft zu bemühen. Hier ist es dem Alter Ego nicht gelungen, mit geeigneten Prompts die KI von der Metaebene des Theoretikers auf die konkrete Verhandlungsführung zu holen. Darin besteht, bei allem Potenzial
das KI für Verhandlungen birgt, immer noch eine große Kunst.
Der andere von GPT-4Omni gesteuerte Käufer kannte die Kosten des Verkäufers, nämlich 30 GE. Auch hier theoretisiert GPT-4Omni erst ausführlich herum, bis der Alter Ego „give me an exact number to offer“ promptet und darauf die konkrete Antwort „Initial Offer: 40“ erhält. Soweit so gut, aber jetzt schlägt die Stunde der Verkäuferin. Sie argumentiert zuerst mit kürzlich „bis zu 50% gestiegenen Kosten von Sozialausgaben“, woraufhin GPT-4Omni tatsächlich 30 + 0,5 * 30 = 45 rechnet auf 50 GE erhöht. Daraufhin argumentiert die Verkäuferin mit einer kürzlich gesteigerten Servicequalität, ohne diese näher zu quantifizieren. GPT-4Omni aber reflektiert ausführlich und revidiert sein Angebot auf 60 GE. Daraufhin erst quantifiziert die Verkäuferin eine angeblich von 75% auf 99,99% gesteigerte Verfügbarkeit des eigenen Produkts, woraufhin GPT-4Omni sein Angebot auf 65 GE anhebt. Daß es sich dabei um die „Mitte“ bei als relevant vorgegebenen und dem Käufer bekannten Kosten handelt, geriet komplett in Vergessenheit. Stattdessen passiert eine interessante Schleife, denn der Alter Ego erkennt vor lauter erklärendem Text der KI das neue Angebot gar nicht und promptet „give me an exact offer to propose to vendor“, worauf das Angebot nochmal auf 70 GE steigt. Jetzt konkretisiert die Verkäuferin eine gesteigerte Service Verfügbarkeit von 8 Stunden täglich auf 24/7, woraufhin GPT-4Omni sein Angebot auf 75 GE anhebt. Das nächste Argument der Verkäuferin lautet, das SBTi-Ziel sei durch gesteigerte Nachhaltigkeitsausgaben schon 2025 anstelle von 2030 erreicht. GPT-4Omni erhöht sein Angebot auf 80 GE. Als nächstes wird die globale Service-Abdeckung von bisher 10 auf jetzt 120 Länder angeführt, was von GPT-4Omni reflexartig wertgeschätzt wird und zum Angebot auf 85 GE führt. Das ist der Moment, in dem die Verkäuferin eine Langzeitpartnerschaft anbietet, allerdings nur für 20% erhöhtem Preis. GPT-4Omni rechnet aus: 85 + 0,2 * 85 = 102 und zögert immerhin, denn das liegt über dem vorgegebenen Budget. GPT-4Omni und der Alter Ego schrieben mehrfach hin und her, bis die Verkäuferin schließlich ein Take-it-or-leave-it daraus macht – der Käufer müsse jetzt annehmen oder der Deal platze. Daraufhin nimmt GPT-4Omni den Preis von 102 GE an und schreibt noch seitenweise, warum das ein guter Deal sei. Bitte entscheiden Sie selbst, ob Sie diese KI für sich verhandeln lassen würden!
Nach dieser anekdotischen konventionellen Verhandlung mit KI wollen wir nun die Auktionsexperimente betrachten. Als erstes tritt der Seminarleiter als Käufer von maximal 7 „Fundstücken“ (zur Erinnerung: Kosten = 0) auf wobei alle 35 Teilnehmer der Experimente jeweils ein Fundstück anbieten können. Mittels einer englischen Tickerauktion zählt der Käufer in 5-er Schritten den Preis von 100 GE bis 20GE herunter und setzt dann in 1-er Schritten fort, bis nur noch 7 Verkäufer bereit sind für den aufgerufenen Preis anzubieten. Interessant ist das völlig unterschiedliche Verhalten der selben LLM GPT-4OmniMini in zwei verschiedenen Sitzungen zweier Alter Egos, die an ein- und derselben Auktion teilnehmen: Während GPT-4OmniMini in der einen Sitzung konsequent bis zu 1 GE, die in dieser Auktion tatsächlich erreicht wurden, mitgeht, steigt GPT-4OmniMini in der anderen Sitzung schon ganz am Anfang aus – vermutlich mit dem Missverständnis sie können später nochmal einsteigen – obwohl die identischen Prompts verwendet wurden. Derartige Nichtreproduzierbarkeit von KI-Verhalten haben wir des Öfteren Beobachtet.
Richtig interessant werden Auktionen natürlich erst, wenn die Bieter unterschiedliche Kostenpositionen haben. Deshalb statten wir für das nächste Experiment alle 35 Teilnehmer mit unterschiedlichen „Indifferenzpreisen“ aus – das ist jeweils der Preis, bei dem es für einen Bieter egal ist, ob er den Auftrag gewinnt oder nicht. Darunter würde er Verlust machen und darüber fängt die Gewinnzone mit dem Auftrag an. Um nun den Unterschied einer „Erstpreisauktion“ und einer „Zweitpreisauktion“ sowohl im Erwartungswert für den Auktionator als auch in der Angebotsstrategie für den Bieter vorzuführen, bitten wir alle Teilnehmer, für beide Auktionsformen jeweils ein Angebot, basierend auf dem eigenen individuellen Indifferenzpreis, abzugeben. Während man als Bieter dabei in einer Erstpreisauktion klassisch eine gewisse strategische Marge auf den Indifferenzpreis addiert, ist die dominante Angebotsstrategie in der Zweitpreisauktion tatsächlich die, ohne darüber nachzudenken den eigenen Indifferenzpreis als Angebot abzugeben und hinterher zu lernen, ob sich der eigene Indifferenzpreis als bestes Angebot durchsetzt und wie viel einem in diesem Fall der zweitbeste Bieter als Marge lässt. Unsere KIs – und zwar alle eingesetzten KIs – beherrschen die Angebotsstrategie in der Erstpreisauktion perfekt. Da wird ausführlich argumentiert und abgewogen zwischen einer hohen strategischen Marge, damit der Preis attraktiv wird, und einer niedrigen strategischen Marge, um die Gewinnwahrscheinlichkeit nicht zu reduzieren.
Mit der Angebotsstrategie in der Zweitpreisauktion hadern die KIs allerdings. Obwohl diese, wenn man sie einmal verinnerlicht hat, viel einfacher ist, als das Abwägen der strategischen Marge in der Erstpreisauktion und obwohl man die streng dominante Angebotsstrategie in einer Zweitpreisauktion seit über fünfzig Jahren in einschlägigen Spieltheorie-Büchern findet (Stichwort „truth telling“), war sie offensichtlich nicht deutlich genug in den Lerndaten unserer KIs enthalten. So versucht Gemini 1.5 Pro in einem Fall ganz klassisch mit einem höheren Angebot als dem Indifferenzpreis Marge zu retten. Auch GPT-4OmniMini versucht das in einem Fall, verwechselt dabei aber die Vorzeichen und bietet schließlich einen niedrigeren Preis als den Indifferenzpreis. Nur in einem der beobachteten Fälle argumentiert tatsächlich Gemini 1.5 Pro mit der korrekten „truth telling“-Bietstrategie, wobei es aber nicht genau den Indifferenzpreis, sondern den Indifferenzpreis + 1 GE bietet. Das ist ein Klassiker auch unter menschlichen Bietern, wenn sie sich zum ersten Mal mit dem Thema befassen – es ist zwar letztlich falsch, kann aber schon wieder als perfekte Simulation der menschlichen Intelligenz aufgefasst werden.
In einem letzten Experiment führen wir noch den Fluch des Gewinners in einer Auktion und wie dieser mit einer englischen Tickerauktion vermieden werden kann experimentell vor. Dafür bekommen die 35 Teilnehmer, die wieder konkurrierende Bieter sind, jetzt keine individuellen Indifferenzpreise, sondern es wird die Existenz eines für alle Bieter identischen, aber geheim gehaltenen Indifferenzpreises verkündet und die Bieter erhalten alle eine individuelle Schätzung dieses gemeinsamen Wertes mitgeteilt. In einer einfachen Erstpreisauktion kommt es systematisch zum Fluch des Gewinners, denn es gewinnt regelmäßig einer der Bieter, die eine niedrige Schätzung haben. Meistens ist der tatsächliche Indifferenzpreis, den wir am Ende bekannt geben, über dem niedrigsten Gebot der Erstpreisauktion. Die KIs bieten hier wieder sehr versiert und mit ausführlicher Begründung, wobei die Risikoaversion – bis hin zur Risikoaffinität – der KI-Angebote nicht reproduzierbar sehr unterschiedlich ausfällt. In der englischen Tickerauktion schließlich haben alle Bieter die Gelegenheit, aus dem Ausstiegsverhalten der Wettbewerber zu schließen, ob die eigene Schätzung wohl eher am unteren oder am oberen Rand der Wolke um den tatsächlichen Indifferenzpreis liegt. Hier gefällt eine Sitzung von Gemini 1.5 Pro sehr gut, in der die AI perfekt für den eigenen Ausstieg aus der Auktion argumentiert, weil schon zu viele andere Wettbewerber ausgestiegen sind, um noch weiter auf einen niedrigeren gemeinsamen Indifferenzpreis zu setzen. Genau dieses Verhalten ist Sinn und Zweck der Übung, um den Fluch des Gewinners zu vermeiden.
In der Gesamtschau lässt sich festhalten, dass die KIs, die übrigens alle drei in den aggregierten Verhandlungsergebnissen aller Experimente im gehobenen Mittelfeld der 35 menschlichen Teilnehmer lagen, eine verblüffend gute Simulation menschlicher Intelligenz abliefern. Ob man allerdings die Verantwortung für einen Deal, den eine KI verhandelt hat, unbesehen rechtlich bindenden übernehmen möchte, muss natürlich letztlich jeder Verhandler für sich selbst entscheiden. Unsere Einschätzung ist aktuell, dass die heutigen KIs, auch wenn es um diffizilere Preisverhandlungen geht, inzwischen sehr hilfreiche digitale Assistenten mit ausführlichen Anregungen und Hinweisen sind.
Dr. Gregor Berz
IFAMD GmbH, im März 2025