FutureSim: Reproduciendo eventos mundiales para evaluar agentes adaptativos

Resumen

Los agentes de IA se están implementando cada vez más en entornos dinámicos y abiertos que requieren adaptarse a nueva información a medida que llega. Para medir eficientemente esta capacidad en casos de uso realistas, proponemos construir simulaciones fundamentadas que reproduzcan eventos del mundo real en el orden en que ocurrieron. Construimos FutureSim, donde los agentes pronostican eventos mundiales más allá de su corte de conocimiento mientras interactúan con una reproducción cronológica del mundo: artículos de noticias reales que llegan y preguntas que se resuelven durante el período simulado. Evaluamos a los agentes de frontera en su entorno nativo, probando su capacidad para predecir eventos mundiales durante un período de tres meses, de enero a marzo de 2026. FutureSim revela una clara separación en sus capacidades, con una precisión del 25% para el mejor agente, y muchos obtienen una puntuación de habilidad de Brier peor que no hacer ninguna predicción. Mediante ablaciones cuidadosas, mostramos cómo FutureSim ofrece un entorno realista para estudiar líneas de investigación emergentes como la adaptación en tiempo de prueba a largo plazo, la búsqueda, la memoria y el razonamiento sobre la incertidumbre. En general, esperamos que nuestro diseño de referencia allane el camino para medir el progreso de la IA en la adaptación abierta que abarca horizontes temporales largos en el mundo real.

English

AI agents are being increasingly deployed in dynamic, open-ended environments that require adapting to new information as it arrives. To efficiently measure this capability for realistic use-cases, we propose building grounded simulations that replay real-world events in the order they occurred. We build FutureSim, where agents forecast world events beyond their knowledge cutoff while interacting with a chronological replay of the world: real news articles arriving and questions resolving over the simulated period. We evaluate frontier agents in their native harness, testing their ability to predict world events over a three-month period from January to March 2026. FutureSim reveals a clear separation in their capabilities, with the best agent's accuracy being 25%, and many having worse Brier skill score than making no prediction at all. Through careful ablations, we show how FutureSim offers a realistic setting to study emerging research directions like long-horizon test-time adaptation, search, memory, and reasoning about uncertainty. Overall, we hope our benchmark design paves the way to measure AI progress on open-ended adaptation spanning long time-horizons in the real world.