Cuando la IA navega por la niebla de la guerra.

Resumen

¿Puede la IA razonar sobre una guerra antes de que su trayectoria se vuelva históricamente obvia? Analizar esta capacidad es difícil porque la predicción geopolítica retrospectiva está fuertemente confundida por la filtración de datos de entrenamiento. Abordamos este desafío mediante un estudio de caso temporalmente anclado sobre las primeras etapas del conflicto de Medio Oriente de 2026, que se desarrolló después de la fecha de corte del entrenamiento de los modelos de vanguardia actuales. Construimos 11 nodos temporales críticos, 42 preguntas verificables específicas de cada nodo y 5 preguntas exploratorias generales, que requieren que los modelos razonen únicamente a partir de información que habría estado disponible públicamente en cada momento. Este diseño mitiga sustancialmente las preocupaciones sobre la filtración de datos de entrenamiento, creando un escenario idóneo para estudiar cómo los modelos analizan una crisis en desarrollo bajo la niebla de la guerra y proporciona, hasta donde sabemos, el primer análisis temporalmente anclado del razonamiento de los LLM en un conflicto geopolítico en curso. Nuestro análisis revela tres hallazgos principales. En primer lugar, los modelos de lenguaje grandes actuales de última generación a menudo muestran un sorprendente grado de realismo estratégico, razonando más allá de la retórica superficial hacia incentivos estructurales más profundos. En segundo lugar, esta capacidad es desigual entre dominios: los modelos son más confiables en entornos estructurados económica y logísticamente que en ambientes políticamente ambiguos con múltiples actores. Finalmente, las narrativas de los modelos evolucionan con el tiempo, pasando de las primeras expectativas de contención rápida hacia explicaciones más sistémicas del atrincheramiento regional y la desescalada por desgaste. Dado que el conflicto sigue en curso en el momento de redactar este texto, este trabajo puede servir como una instantánea archivística del razonamiento de los modelos durante una crisis geopolítica en desarrollo, permitiendo estudios futuros sin el sesgo retrospectivo del análisis con conocimiento de causa posterior.

English

Can AI reason about a war before its trajectory becomes historically obvious? Analyzing this capability is difficult because retrospective geopolitical prediction is heavily confounded by training-data leakage. We address this challenge through a temporally grounded case study of the early stages of the 2026 Middle East conflict, which unfolded after the training cutoff of current frontier models. We construct 11 critical temporal nodes, 42 node-specific verifiable questions, and 5 general exploratory questions, requiring models to reason only from information that would have been publicly available at each moment. This design substantially mitigates training-data leakage concerns, creating a setting well-suited for studying how models analyze an unfolding crisis under the fog of war, and provides, to our knowledge, the first temporally grounded analysis of LLM reasoning in an ongoing geopolitical conflict. Our analysis reveals three main findings. First, current state-of-the-art large language models often display a striking degree of strategic realism, reasoning beyond surface rhetoric toward deeper structural incentives. Second, this capability is uneven across domains: models are more reliable in economically and logistically structured settings than in politically ambiguous multi-actor environments. Finally, model narratives evolve over time, shifting from early expectations of rapid containment toward more systemic accounts of regional entrenchment and attritional de-escalation. Since the conflict remains ongoing at the time of writing, this work can serve as an archival snapshot of model reasoning during an unfolding geopolitical crisis, enabling future studies without the hindsight bias of retrospective analysis.

Cuando la IA navega por la niebla de la guerra.

When AI Navigates the Fog of War

Resumen

Support