Quando a IA Navega no Nevoeiro da Guerra

Resumo

A Inteligência Artificial pode raciocinar sobre uma guerra antes que sua trajetória se torne historicamente óbvia? Analisar essa capacidade é difícil porque a previsão geopolítica retrospectiva é fortemente confundida pelo vazamento de dados de treinamento. Enfrentamos esse desafio por meio de um estudo de caso temporalmente ancorado dos estágios iniciais do conflito no Oriente Médio de 2026, que se desenrolou após a data de corte do treinamento dos modelos de fronteira atuais. Construímos 11 nós temporais críticos, 42 perguntas verificáveis específicas para cada nó e 5 perguntas exploratórias gerais, exigindo que os modelos raciocinem apenas a partir de informações que estariam publicamente disponíveis em cada momento. Esse projeto mitiga substancialmente as preocupações com vazamento de dados de treinamento, criando um cenário bem adequado para estudar como os modelos analisam uma crise em desenvolvimento sob o nevoeiro da guerra e fornece, até onde sabemos, a primeira análise temporalmente ancorada do raciocínio de LLMs em um conflito geopolítico em andamento. Nossa análise revela três descobertas principais. Primeiro, os modelos de linguagem grande (LLMs) state-of-the-art atuais frequentemente exibem um grau impressionante de realismo estratégico, raciocinando além da retórica superficial em direção a incentivos estruturais mais profundos. Segundo, essa capacidade é desigual entre os domínios: os modelos são mais confiáveis em ambientes estruturados economicamente e logisticamente do que em ambientes politicamente ambíguos com múltiplos atores. Finalmente, as narrativas dos modelos evoluem ao longo do tempo, mudando das primeiras expectativas de contenção rápida para relatos mais sistêmicos de entrincheiramento regional e desescalada por desgaste. Uma vez que o conflito ainda está em andamento no momento da redação deste texto, este trabalho pode servir como um instantâneo arquivístico do raciocínio do modelo durante uma crise geopolítica em desenvolvimento, permitindo estudos futuros sem o viés de retrospectiva da análise retrospectiva.

English

Can AI reason about a war before its trajectory becomes historically obvious? Analyzing this capability is difficult because retrospective geopolitical prediction is heavily confounded by training-data leakage. We address this challenge through a temporally grounded case study of the early stages of the 2026 Middle East conflict, which unfolded after the training cutoff of current frontier models. We construct 11 critical temporal nodes, 42 node-specific verifiable questions, and 5 general exploratory questions, requiring models to reason only from information that would have been publicly available at each moment. This design substantially mitigates training-data leakage concerns, creating a setting well-suited for studying how models analyze an unfolding crisis under the fog of war, and provides, to our knowledge, the first temporally grounded analysis of LLM reasoning in an ongoing geopolitical conflict. Our analysis reveals three main findings. First, current state-of-the-art large language models often display a striking degree of strategic realism, reasoning beyond surface rhetoric toward deeper structural incentives. Second, this capability is uneven across domains: models are more reliable in economically and logistically structured settings than in politically ambiguous multi-actor environments. Finally, model narratives evolve over time, shifting from early expectations of rapid containment toward more systemic accounts of regional entrenchment and attritional de-escalation. Since the conflict remains ongoing at the time of writing, this work can serve as an archival snapshot of model reasoning during an unfolding geopolitical crisis, enabling future studies without the hindsight bias of retrospective analysis.

Quando a IA Navega no Nevoeiro da Guerra

When AI Navigates the Fog of War

Resumo

Support