FutureSim: Reproduzindo Eventos Mundiais para Avaliar Agentes Adaptativos

Resumo

Agentes de inteligência artificial estão sendo cada vez mais implantados em ambientes dinâmicos e de final aberto, que exigem adaptação a novas informações à medida que estas chegam. Para medir eficientemente essa capacidade em cenários realistas, propomos a construção de simulações fundamentadas que reproduzem eventos do mundo real na ordem em que ocorreram. Construímos o FutureSim, onde agentes preveem eventos mundiais além de seu limite de conhecimento, enquanto interagem com uma reprodução cronológica do mundo: artigos de notícias reais chegando e questões sendo resolvidas ao longo do período simulado. Avaliamos agentes de fronteira em seu ambiente nativo, testando sua capacidade de prever eventos mundiais durante um período de três meses, de janeiro a março de 2026. O FutureSim revela uma separação clara em suas capacidades, com a precisão do melhor agente sendo de 25%, e muitos apresentando pior pontuação de habilidade de Brier do que não fazer previsão alguma. Por meio de ablações cuidadosas, mostramos como o FutureSim oferece um cenário realista para estudar direções de pesquisa emergentes, como adaptação em horizonte longo durante o teste, busca, memória e raciocínio sobre incerteza. No geral, esperamos que nosso design de referência abra caminho para medir o progresso da IA na adaptação de final aberto em horizontes temporais longos no mundo real.

English

AI agents are being increasingly deployed in dynamic, open-ended environments that require adapting to new information as it arrives. To efficiently measure this capability for realistic use-cases, we propose building grounded simulations that replay real-world events in the order they occurred. We build FutureSim, where agents forecast world events beyond their knowledge cutoff while interacting with a chronological replay of the world: real news articles arriving and questions resolving over the simulated period. We evaluate frontier agents in their native harness, testing their ability to predict world events over a three-month period from January to March 2026. FutureSim reveals a clear separation in their capabilities, with the best agent's accuracy being 25%, and many having worse Brier skill score than making no prediction at all. Through careful ablations, we show how FutureSim offers a realistic setting to study emerging research directions like long-horizon test-time adaptation, search, memory, and reasoning about uncertainty. Overall, we hope our benchmark design paves the way to measure AI progress on open-ended adaptation spanning long time-horizons in the real world.