FutureSim : Rejouer des événements mondiaux pour évaluer des agents adaptatifs

Résumé

Les agents IA sont de plus en plus déployés dans des environnements dynamiques et ouverts qui nécessitent une adaptation aux nouvelles informations au fur et à mesure qu'elles arrivent. Pour mesurer efficacement cette capacité dans des cas d'utilisation réalistes, nous proposons de construire des simulations ancrées qui rejouent les événements du monde réel dans l'ordre où ils se sont produits. Nous développons FutureSim, où les agents prévoient des événements mondiaux au-delà de leur seuil de connaissances tout en interagissant avec une relecture chronologique du monde : de véritables articles de presse arrivant et des questions se résolvant tout au long de la période simulée. Nous évaluons les agents de pointe dans leur environnement natif, en testant leur capacité à prédire des événements mondiaux sur une période de trois mois, de janvier à mars 2026. FutureSim révèle une nette séparation de leurs capacités, avec une précision de 25 % pour le meilleur agent, et un score de compétence de Brier pour de nombreux agents inférieur à celui d'une absence totale de prédiction. Grâce à des ablations minutieuses, nous montrons comment FutureSim offre un cadre réaliste pour étudier des axes de recherche émergents tels que l'adaptation à long horizon en phase de test, la recherche, la mémoire et le raisonnement sur l'incertitude. Dans l'ensemble, nous espérons que la conception de notre benchmark ouvre la voie à la mesure des progrès de l'IA en matière d'adaptation ouverte s'étendant sur de longs horizons temporels dans le monde réel.

English

AI agents are being increasingly deployed in dynamic, open-ended environments that require adapting to new information as it arrives. To efficiently measure this capability for realistic use-cases, we propose building grounded simulations that replay real-world events in the order they occurred. We build FutureSim, where agents forecast world events beyond their knowledge cutoff while interacting with a chronological replay of the world: real news articles arriving and questions resolving over the simulated period. We evaluate frontier agents in their native harness, testing their ability to predict world events over a three-month period from January to March 2026. FutureSim reveals a clear separation in their capabilities, with the best agent's accuracy being 25%, and many having worse Brier skill score than making no prediction at all. Through careful ablations, we show how FutureSim offers a realistic setting to study emerging research directions like long-horizon test-time adaptation, search, memory, and reasoning about uncertainty. Overall, we hope our benchmark design paves the way to measure AI progress on open-ended adaptation spanning long time-horizons in the real world.