FutureSim: Het Afspelen van Wereldgebeurtenissen ter Evaluatie van Adaptieve Agenten

Samenvatting

AI-agenten worden steeds vaker ingezet in dynamische, open omgevingen die aanpassing aan nieuwe informatie vereisen zodra deze binnenkomt. Om deze capaciteit efficiënt te meten voor realistische toepassingen, stellen we voor om grondige simulaties te bouwen die gebeurtenissen uit de echte wereld in de volgorde van optreden herhalen. We ontwikkelen FutureSim, waarin agenten wereldgebeurtenissen voorspellen die buiten hun kennisafkap vallen, terwijl ze interageren met een chronologische herhaling van de wereld: echte nieuwsartikelen die verschijnen en vragen die worden beantwoord gedurende de gesimuleerde periode. We evalueren geavanceerde agenten in hun eigen omgeving, waarbij we hun vermogen testen om wereldgebeurtenissen te voorspellen over een periode van drie maanden, van januari tot maart 2026. FutureSim toont een duidelijke scheiding in hun capaciteiten, waarbij de beste agent een nauwkeurigheid van 25% heeft en vele een slechtere Brier-vaardigheidsscore hebben dan helemaal geen voorspelling doen. Door middel van zorgvuldige ablatiestudies laten we zien hoe FutureSim een realistische setting biedt om opkomende onderzoeksrichtingen te bestuderen, zoals aanpassing op lange termijn tijdens testtijd, zoeken, geheugen en redeneren over onzekerheid. Al met al hopen we dat ons benchmarkontwerp de weg vrijmaakt om de vooruitgang van AI te meten op het gebied van open aanpassing over lange tijdshorizonten in de echte wereld.

English

AI agents are being increasingly deployed in dynamic, open-ended environments that require adapting to new information as it arrives. To efficiently measure this capability for realistic use-cases, we propose building grounded simulations that replay real-world events in the order they occurred. We build FutureSim, where agents forecast world events beyond their knowledge cutoff while interacting with a chronological replay of the world: real news articles arriving and questions resolving over the simulated period. We evaluate frontier agents in their native harness, testing their ability to predict world events over a three-month period from January to March 2026. FutureSim reveals a clear separation in their capabilities, with the best agent's accuracy being 25%, and many having worse Brier skill score than making no prediction at all. Through careful ablations, we show how FutureSim offers a realistic setting to study emerging research directions like long-horizon test-time adaptation, search, memory, and reasoning about uncertainty. Overall, we hope our benchmark design paves the way to measure AI progress on open-ended adaptation spanning long time-horizons in the real world.