FutureSim: Nachspielen von Weltgeschehen zur Evaluierung adaptiver Agenten

Zusammenfassung

KI-Agenten werden zunehmend in dynamischen, offenen Umgebungen eingesetzt, die eine Anpassung an neu eintreffende Informationen erfordern. Um diese Fähigkeit für realistische Anwendungsfälle effizient zu messen, schlagen wir den Aufbau fundierter Simulationen vor, die reale Ereignisse in der Reihenfolge ihres Auftretens wiedergeben. Wir entwickeln FutureSim, in dem Agenten Weltereignisse jenseits ihrer Wissensgrenze vorhersagen, während sie mit einer chronologischen Wiedergabe der Welt interagieren: echte Nachrichtenartikel, die eintreffen, und Fragen, die sich über den simulierten Zeitraum hinweg klären. Wir bewerten führende Agenten in ihrem nativen Rahmen und testen ihre Fähigkeit, Weltereignisse über einen Zeitraum von drei Monaten von Januar bis März 2026 vorherzusagen. FutureSim zeigt eine deutliche Trennung ihrer Fähigkeiten: Die Genauigkeit des besten Agenten beträgt 25 %, und viele weisen einen schlechteren Brier-Skill-Score auf, als gar keine Vorhersage zu treffen. Durch sorgfältige Ablationen zeigen wir, wie FutureSim eine realistische Umgebung bietet, um aufkommende Forschungsrichtungen wie langfristige Testzeit-Anpassung, Suche, Gedächtnis und Schlussfolgerungen über Unsicherheit zu untersuchen. Insgesamt hoffen wir, dass unser Benchmark-Design den Weg ebnet, um den Fortschritt der KI bei offener Anpassung über lange Zeiträume in der realen Welt zu messen.

English

AI agents are being increasingly deployed in dynamic, open-ended environments that require adapting to new information as it arrives. To efficiently measure this capability for realistic use-cases, we propose building grounded simulations that replay real-world events in the order they occurred. We build FutureSim, where agents forecast world events beyond their knowledge cutoff while interacting with a chronological replay of the world: real news articles arriving and questions resolving over the simulated period. We evaluate frontier agents in their native harness, testing their ability to predict world events over a three-month period from January to March 2026. FutureSim reveals a clear separation in their capabilities, with the best agent's accuracy being 25%, and many having worse Brier skill score than making no prediction at all. Through careful ablations, we show how FutureSim offers a realistic setting to study emerging research directions like long-horizon test-time adaptation, search, memory, and reasoning about uncertainty. Overall, we hope our benchmark design paves the way to measure AI progress on open-ended adaptation spanning long time-horizons in the real world.