Quand l'IA navigue dans le brouillard de la guerre

Résumé

L'IA peut-elle raisonner sur une guerre avant que sa trajectoire ne devienne historiquement évidente ? Analyser cette capacité est difficile car la prédiction géopolitique rétrospective est fortement biaisée par la fuite de données d'entraînement. Nous abordons ce défi grâce à une étude de cas temporellement ancrée sur les premières phases du conflit moyen-oriental de 2026, qui s'est déroulé après la date de coupure des données d'entraînement des modèles de pointe actuels. Nous construisons 11 nœuds temporels critiques, 42 questions vérifiables spécifiques à chaque nœud et 5 questions exploratoires générales, exigeant des modèles qu'ils raisonnent uniquement à partir des informations qui auraient été publiquement disponibles à chaque moment. Cette conception atténue substantiellement les problèmes de fuite des données d'entraînement, créant un cadre bien adapté pour étudier comment les modèles analysent une crise en développement sous le brouillard de la guerre, et fournit, à notre connaissance, la première analyse temporellement ancrée du raisonnement des LLM dans un conflit géopolitique en cours. Notre analyse révèle trois résultats principaux. Premièrement, les grands modèles de langage actuels font souvent preuve d'un degré frappant de réalisme stratégique, raisonnant au-delà de la rhétorique de surface vers des incitations structurelles plus profondes. Deuxièmement, cette capacité est inégale selon les domaines : les modèles sont plus fiables dans des contextes structurés sur les plans économique et logistique que dans des environnements politiquement ambigus à multiples acteurs. Enfin, les narratifs des modèles évoluent dans le temps, passant d'attentes précoces d'un confinement rapide à des explications plus systémiques d'enlisement régional et de désescalade attritionnelle. Comme le conflit est toujours en cours au moment de la rédaction, ce travail peut servir d'instantané archivistique du raisonnement des modèles lors d'une crise géopolitique en développement, permettant de futures études sans le biais de postériorité inhérent à l'analyse rétrospective.

English

Can AI reason about a war before its trajectory becomes historically obvious? Analyzing this capability is difficult because retrospective geopolitical prediction is heavily confounded by training-data leakage. We address this challenge through a temporally grounded case study of the early stages of the 2026 Middle East conflict, which unfolded after the training cutoff of current frontier models. We construct 11 critical temporal nodes, 42 node-specific verifiable questions, and 5 general exploratory questions, requiring models to reason only from information that would have been publicly available at each moment. This design substantially mitigates training-data leakage concerns, creating a setting well-suited for studying how models analyze an unfolding crisis under the fog of war, and provides, to our knowledge, the first temporally grounded analysis of LLM reasoning in an ongoing geopolitical conflict. Our analysis reveals three main findings. First, current state-of-the-art large language models often display a striking degree of strategic realism, reasoning beyond surface rhetoric toward deeper structural incentives. Second, this capability is uneven across domains: models are more reliable in economically and logistically structured settings than in politically ambiguous multi-actor environments. Finally, model narratives evolve over time, shifting from early expectations of rapid containment toward more systemic accounts of regional entrenchment and attritional de-escalation. Since the conflict remains ongoing at the time of writing, this work can serve as an archival snapshot of model reasoning during an unfolding geopolitical crisis, enabling future studies without the hindsight bias of retrospective analysis.

Quand l'IA navigue dans le brouillard de la guerre

When AI Navigates the Fog of War

Résumé

Support