Wanneer AI de oorlogsmist doorkruist.

Samenvatting

Kan AI redeneren over een oorlog voordat het verloop ervan historisch duidelijk wordt? Het analyseren van deze capaciteit is moeilijk omdat retrospectieve geopolitieke voorspelling sterk wordt verstoord door lekkage in de trainingsdata. Wij pakken deze uitdaging aan door middel van een temporeel verankerde casestudy van de vroege fasen van het Midden-Oosten conflict van 2026, dat zich ontvouwde na de afsluitdatum van de trainingsdata van huidige frontier-modellen. We construeren 11 kritieke temporele knooppunten, 42 knooppuntspecifieke verifieerbare vragen en 5 algemene verkennende vragen, waarbij modellen alleen moeten redeneren op basis van informatie die op elk moment publiekelijk beschikbaar zou zijn geweest. Dit ontwerp vermindert de zorgen over lekkage van trainingsdata aanzienlijk, creëert een setting die bijzonder geschikt is voor het bestuderen van hoe modellen een zich ontvouwende crisis analyseren onder de 'war fog', en biedt, voor zover wij weten, de eerste temporeel verankerde analyse van LLM-redenering in een lopend geopolitiek conflict. Onze analyse onthult drie hoofdbevindingen. Ten eerste tonen huidige state-of-the-art grote taalmodelen vaak een opvallende mate van strategisch realisme, waarbij ze verder redeneren dan oppervlakkige retoriek naar diepere structurele prikkels. Ten tweede is deze capaciteit ongelijk verdeeld over domeinen: modellen zijn betrouwbaarder in economisch en logistiek gestructureerde settings dan in politiek dubbelzinnige omgevingen met meerdere actoren. Tot slot evolueren modelnarratieven in de tijd, waarbij ze verschuiven van vroege verwachtingen van snelle insluiting naar meer systemische verklaringen van regionale ingraven en uitputtingsgerichte de-escalatie. Aangezien het conflict op het moment van schrijven nog gaande is, kan dit werk dienen als een archiveringsmomentopname van modelredenering tijdens een zich ontvouwend geopolitiek crisis, waardoor toekomstige studies mogelijk worden zonder de hindsight bias van retrospectieve analyse.

English

Can AI reason about a war before its trajectory becomes historically obvious? Analyzing this capability is difficult because retrospective geopolitical prediction is heavily confounded by training-data leakage. We address this challenge through a temporally grounded case study of the early stages of the 2026 Middle East conflict, which unfolded after the training cutoff of current frontier models. We construct 11 critical temporal nodes, 42 node-specific verifiable questions, and 5 general exploratory questions, requiring models to reason only from information that would have been publicly available at each moment. This design substantially mitigates training-data leakage concerns, creating a setting well-suited for studying how models analyze an unfolding crisis under the fog of war, and provides, to our knowledge, the first temporally grounded analysis of LLM reasoning in an ongoing geopolitical conflict. Our analysis reveals three main findings. First, current state-of-the-art large language models often display a striking degree of strategic realism, reasoning beyond surface rhetoric toward deeper structural incentives. Second, this capability is uneven across domains: models are more reliable in economically and logistically structured settings than in politically ambiguous multi-actor environments. Finally, model narratives evolve over time, shifting from early expectations of rapid containment toward more systemic accounts of regional entrenchment and attritional de-escalation. Since the conflict remains ongoing at the time of writing, this work can serve as an archival snapshot of model reasoning during an unfolding geopolitical crisis, enabling future studies without the hindsight bias of retrospective analysis.

Wanneer AI de oorlogsmist doorkruist.

When AI Navigates the Fog of War

Samenvatting

Support