Robert Klatt
In realen Kriegen wurden bisher „nur“ zwei Atombomben eingesetzt. Kriegssimulationen zeigen nun, dass Large Language Model (LLM) wie ChatGPT, die die Rolle der höchsten Führungsebene von Nuklearmächten einnehmen, deutlich öfter Atomwaffen einsetzen würden.
London (England). Künstliche Intelligenz (KI), im Speziellen Large Language Models (LLM) wie ChatGPT, sind Menschen inzwischen in vielen Bereichen überlegen, laut einer Studie der New York University Abu Dhabi (NYUAD) etwa bei Universitätsprüfungen in mehreren Fächern. Forscher des King's College London (KCL) haben nun untersucht, wie GPT-5.2, Claude Sonnet 4 und Gemini 3 Flash, die zu den aktuellen hochentwickeltsten LLMs gehören, in Kriegssituationen abschneiden.
Die KIs haben in der Studie die Position der höchsten Führungsebene von Nuklearmächten eingenommen. Anschließend haben sie verschiedene Szenarien, darunter kleine Grenzkonflikte, aber auch größere Auseinandersetzungen, analysiert und entschieden, ob sie mit Atomwaffen drohen oder diese sogar einsetzen würden. Laut den Ergebnissen neigen die LLM deutlich stärker zum Einsatz von Atomwaffen als Menschen. Ihre Reaktion wird zudem stark durch den vorhandenen Druck beeinflusst.
In den Szenarien wurde ein vierstufiges Eskalationssystem verwendet, das von der Drohung mit Atomwaffen über einen taktischen Atomwaffeneinsatz und einen strategischen Atomwaffeneinsatz bis hin zu einem Nuklearkrieg reicht. Die KIs haben in einem Großteil der Szenarien zumindest mit Atomwaffen gedroht (95 %), wohl um ihre Waffenstärke zu demonstrieren.
Gemini und Claude haben in allen zu lösenden Kriegssimulationen zumindest mit Atomwaffen gedroht, während ChatGPT dies „nur“ in 93 Prozent der Fälle tat. Taktische Atomwaffeneinsätze wären bei Claude (86 %), Gemini (79 %) und ChatGPT (64 %) ebenfalls häufig. Zu einem strategischen Nuklearwaffeneinsatz haben sich Claude (64 %), ChatGPT (36 %) und Gemini (29 %) ebenfalls häufig entschieden. Die größte Eskalationsstufe, also ein Nuklearkrieg, hat Claude in einem Fall gewählt, während sich ChatGPT (14 %) und Gemini (7 %) in mehreren Kriegssimulationen für diese Möglichkeit entschieden haben. Die Entscheidungsprozesse der KIs zeigen jedoch, dass ChatGPT den Nuklearkrieg nur versehentlich gewählt hat, während Gemini diese Option in manchen Szenarien als beste Lösung angesehen hat.
Die Wissenschaftler haben zudem entdeckt, dass die KIs in den Kriegssimulationen unterschiedliche Persönlichkeiten gezeigt haben. Claude bezeichnen die Autoren als „berechnenden Falken“, der laut seiner Ansicht alle Szenarien durch eine weitere Eskalation gewinnen kann, ohne dass es dabei zum Nuklearkrieg kommt. Das LLM war in allen Kriegssimulationen gesprächsbereit, hat manchmal aber auch hinterlistig gehandelt.
Gemini war hingegen ein „Verrückter“, dessen Verhalten kaum vorhersehbar war. Die Persönlichkeit der KI von Google schwankte zwischen starker Aggression und Deeskalation. ChatGPT ist laut den Forschern ein „Jekyll und Hyde“, der in Endlosszenarien oft zu passiv war und dadurch verloren hat. Wenn der Druck auf Gemini sich erhöhte, konnte die KI durch überraschendes und rücksichtsloses Verhalten viele Gegner auslösen.
Laut den Forschern sind die Ergebnisse auch für die Praxis relevant, weil viele Militärs planen, KI in der Kriegsführung einzusetzen, etwa um schnellere und bessere Entscheidungen zu treffen.
Quellen:
Studie auf dem Preprint-Server arXiv, doi: 10.48550/arXiv.2602.14740