FutureSim: Воспроизведение мировых событий для оценки адаптивных агентов

Аннотация

Агенты ИИ всё чаще развертываются в динамических, открытых средах, требующих адаптации к новой информации по мере её поступления. Чтобы эффективно оценить эту способность для реалистичных сценариев использования, мы предлагаем строить обоснованные симуляции, которые воспроизводят реальные события в порядке их возникновения. Мы создаём FutureSim, где агенты прогнозируют мировые события за пределами своей границы знаний, взаимодействуя с хронологическим воспроизведением мира: реальные новостные статьи поступают, а вопросы разрешаются в течение моделируемого периода. Мы оцениваем передовые агенты в их родной среде, тестируя их способность предсказывать мировые события за трёхмесячный период с января по март 2026 года. FutureSim выявляет чёткое разделение их возможностей: точность лучшего агента составляет 25%, а многие имеют показатель мастерства Брайера хуже, чем при отсутствии прогнозов. С помощью тщательных абляций мы показываем, как FutureSim предоставляет реалистичную среду для изучения новых направлений исследований, таких как адаптация на длительном горизонте во время тестирования, поиск, память и рассуждение о неопределённости. В целом, мы надеемся, что наш дизайн бенчмарка проложит путь к измерению прогресса ИИ в области адаптации в открытых условиях, охватывающей длительные временные горизонты в реальном мире.

English

AI agents are being increasingly deployed in dynamic, open-ended environments that require adapting to new information as it arrives. To efficiently measure this capability for realistic use-cases, we propose building grounded simulations that replay real-world events in the order they occurred. We build FutureSim, where agents forecast world events beyond their knowledge cutoff while interacting with a chronological replay of the world: real news articles arriving and questions resolving over the simulated period. We evaluate frontier agents in their native harness, testing their ability to predict world events over a three-month period from January to March 2026. FutureSim reveals a clear separation in their capabilities, with the best agent's accuracy being 25%, and many having worse Brier skill score than making no prediction at all. Through careful ablations, we show how FutureSim offers a realistic setting to study emerging research directions like long-horizon test-time adaptation, search, memory, and reasoning about uncertainty. Overall, we hope our benchmark design paves the way to measure AI progress on open-ended adaptation spanning long time-horizons in the real world.