Quando l'IA naviga nella nebbia della guerra.

Abstract

L'IA può ragionare su una guerra prima che la sua traiettoria diventi storicamente evidente? Analizzare questa capacità è difficile perché la previsione geopolitica retrospettiva è fortemente confusa dalla contaminazione dei dati di addestramento. Affrontiamo questa sfida attraverso uno studio di caso temporalmente ancorato sulle fasi iniziali del conflitto mediorientale del 2026, che si è sviluppato dopo la data di cutoff di addestramento degli attuali modelli all'avanguardia. Costruiamo 11 nodi temporali critici, 42 domande verificabili specifiche per nodo e 5 domande esplorative generali, che richiedono ai modelli di ragionare utilizzando esclusivamente informazioni che sarebbero state pubblicamente disponibili in ciascun momento. Questo progetto mitiga sostanzialmente i problemi di contaminazione dei dati di addestramento, creando un contesto ideale per studiare come i modelli analizzano una crisi in evoluzione sotto la "nebbia della guerra" e fornisce, a nostra conoscenza, la prima analisi temporalmente ancorata del ragionamento degli LLM in un conflitto geopolitico in corso. La nostra analisi rivela tre risultati principali. In primo luogo, gli attuali modelli linguistici di grandi dimensioni all'avanguardia mostrano spesso un sorprendente grado di realismo strategico, ragionando al di là della retorica superficiale verso incentivi strutturali più profondi. In secondo luogo, questa capacità è disomogenea tra i domini: i modelli sono più affidabili in contesti strutturati a livello economico e logistico che in ambienti multi-attore politicamente ambigui. Infine, le narrazioni dei modelli si evolvono nel tempo, passando dalle prime aspettative di un rapido contenimento verso spiegazioni più sistemiche di consolidamento regionale e di de-escalation logorante. Poiché il conflitto è ancora in corso al momento della stesura, questo lavoro può servire come istantanea archivistica del ragionamento dei modelli durante una crisi geopolitica in sviluppo, consentendo studi futuri senza il bias del senno di poi tipico dell'analisi retrospettiva.

English

Can AI reason about a war before its trajectory becomes historically obvious? Analyzing this capability is difficult because retrospective geopolitical prediction is heavily confounded by training-data leakage. We address this challenge through a temporally grounded case study of the early stages of the 2026 Middle East conflict, which unfolded after the training cutoff of current frontier models. We construct 11 critical temporal nodes, 42 node-specific verifiable questions, and 5 general exploratory questions, requiring models to reason only from information that would have been publicly available at each moment. This design substantially mitigates training-data leakage concerns, creating a setting well-suited for studying how models analyze an unfolding crisis under the fog of war, and provides, to our knowledge, the first temporally grounded analysis of LLM reasoning in an ongoing geopolitical conflict. Our analysis reveals three main findings. First, current state-of-the-art large language models often display a striking degree of strategic realism, reasoning beyond surface rhetoric toward deeper structural incentives. Second, this capability is uneven across domains: models are more reliable in economically and logistically structured settings than in politically ambiguous multi-actor environments. Finally, model narratives evolve over time, shifting from early expectations of rapid containment toward more systemic accounts of regional entrenchment and attritional de-escalation. Since the conflict remains ongoing at the time of writing, this work can serve as an archival snapshot of model reasoning during an unfolding geopolitical crisis, enabling future studies without the hindsight bias of retrospective analysis.

Quando l'IA naviga nella nebbia della guerra.

When AI Navigates the Fog of War

Abstract

Support