Wenn KI den Nebel des Krieges durchdringt.

Zusammenfassung

Kann KI über einen Krieg nachdenken, bevor sein Verlauf historisch offensichtlich wird? Die Analyse dieser Fähigkeit ist schwierig, da retrospektive geopolitische Vorhersagen stark durch das Problem der Datenlecks im Trainingsdatensatz verzerrt werden. Wir begegnen dieser Herausforderung mit einer zeitlich verankerten Fallstudie zu den frühen Phasen des Nahost-Konflikts von 2026, der sich nach dem Trainingszeitende aktueller Frontier-Modelle entfaltete. Wir konstruieren 11 kritische zeitliche Knotenpunkte, 42 knotenpunktspezifische überprüfbare Fragen und 5 allgemeine explorative Fragen, die von den Modellen verlangen, ausschließlich auf der Basis von Informationen zu argumentieren, die zu jedem Zeitpunkt öffentlich verfügbar gewesen wären. Dieses Design mildert Bedenken bezüglich von Datenlecks im Trainingsdatensatz erheblich ab, schafft einen Rahmen, der gut geeignet ist, um zu untersuchen, wie Modelle eine sich entfaltende Krise im "Nebel des Krieges" analysieren, und liefert unseres Wissens nach die erste zeitlich verankerte Analyse der Argumentationsfähigkeit von LLMs in einem andauernden geopolitischen Konflikt. Unsere Analyse ergibt drei Haupterkenntnisse. Erstens zeigen aktuelle state-of-the-art Large Language Models oft einen bemerkenswerten Grad an strategischem Realismus, indem sie über die oberflächliche Rhetorik hinaus zu tieferliegenden strukturellen Anreizen argumentieren. Zweitens ist diese Fähigkeit je nach Domäne ungleich ausgeprägt: Modelle sind in wirtschaftlich und logistisch strukturierten Kontexten zuverlässiger als in politisch mehrdeutigen Umgebungen mit mehreren Akteuren. Schließlich entwickeln sich die Modellnarrative im Zeitverlauf und wechseln von frühen Erwartungen einer schnellen Eindämmung hin zu systemischeren Darstellungen regionaler Verfestigung und erschöpfender Deeskalation. Da der Konflikt zum Zeitpunkt der Abfassung noch andauert, kann diese Arbeit als eine archivierte Momentaufnahme der Modellargumentation während einer sich entfaltenden geopolitischen Krise dienen und zukünftige Studien ermöglichen, ohne den Rückblick-Bias retrospektiver Analysen.

English

Can AI reason about a war before its trajectory becomes historically obvious? Analyzing this capability is difficult because retrospective geopolitical prediction is heavily confounded by training-data leakage. We address this challenge through a temporally grounded case study of the early stages of the 2026 Middle East conflict, which unfolded after the training cutoff of current frontier models. We construct 11 critical temporal nodes, 42 node-specific verifiable questions, and 5 general exploratory questions, requiring models to reason only from information that would have been publicly available at each moment. This design substantially mitigates training-data leakage concerns, creating a setting well-suited for studying how models analyze an unfolding crisis under the fog of war, and provides, to our knowledge, the first temporally grounded analysis of LLM reasoning in an ongoing geopolitical conflict. Our analysis reveals three main findings. First, current state-of-the-art large language models often display a striking degree of strategic realism, reasoning beyond surface rhetoric toward deeper structural incentives. Second, this capability is uneven across domains: models are more reliable in economically and logistically structured settings than in politically ambiguous multi-actor environments. Finally, model narratives evolve over time, shifting from early expectations of rapid containment toward more systemic accounts of regional entrenchment and attritional de-escalation. Since the conflict remains ongoing at the time of writing, this work can serve as an archival snapshot of model reasoning during an unfolding geopolitical crisis, enabling future studies without the hindsight bias of retrospective analysis.

Wenn KI den Nebel des Krieges durchdringt.

When AI Navigates the Fog of War

Zusammenfassung

Support