UltraHorizon: Оценка возможностей агентов в сценариях с ультрадолгосрочным горизонтом планирования
UltraHorizon: Benchmarking Agent Capabilities in Ultra Long-Horizon Scenarios
September 26, 2025
Авторы: Haotian Luo, Huaisong Zhang, Xuelin Zhang, Haoyu Wang, Zeyu Qin, Wenjie Lu, Guozheng Ma, Haiying He, Yingsha Xie, Qiyang Zhou, Zixuan Hu, Hongze Mi, Yibo Wang, Naiqiang Tan, Hong Chen, Yi R. Fung, Chun Yuan, Li Shen
cs.AI
Аннотация
Автономные агенты в последнее время достигли значительного прогресса в различных областях, однако большинство оценок сосредоточено на задачах с коротким горизонтом и полной наблюдаемостью. В то же время многие важные задачи реального мира, такие как крупномасштабная разработка программного обеспечения, коммерческие инвестиции и научные открытия, разворачиваются в сценариях с длительным горизонтом и частичной наблюдаемостью, где успех зависит от устойчивого рассуждения, планирования, управления памятью и использования инструментов. Существующие бенчмарки редко охватывают эти долгосрочные вызовы, оставляя пробел в систематической оценке. Чтобы устранить этот пробел, мы представляем UltraHorizon — новый бенчмарк, который измеряет фундаментальные способности, необходимые для сложных задач реального мира. Мы используем исследование как универсальную задачу в трех различных средах для проверки этих ключевых компетенций. Агенты разработаны для задач долгосрочного открытия, где они должны итеративно раскрывать скрытые правила через устойчивое рассуждение, планирование, управление памятью и инструментами, а также взаимодействие с окружением. В наиболее масштабной настройке траектории в среднем превышают 200 тысяч токенов и 400 вызовов инструментов, тогда как в стандартных конфигурациях они все равно превышают 35 тысяч токенов и включают более 60 вызовов инструментов в среднем. Наши обширные эксперименты показывают, что агенты на основе языковых моделей (LLM) стабильно показывают низкие результаты в этих условиях, тогда как человеческие участники достигают более высоких баллов, что подчеркивает сохраняющийся разрыв в долгосрочных способностях агентов. Мы также наблюдаем, что простое масштабирование неэффективно в нашей задаче. Чтобы лучше проиллюстрировать неудачи агентов, мы проводим углубленный анализ собранных траекторий. Мы выделяем восемь типов ошибок и связываем их с двумя основными причинами: блокировкой в контексте и фундаментальными пробелами в функциональных возможностях.
https://github.com/StarDewXXX/UltraHorizon{Наш код будет доступен здесь.}
English
Autonomous agents have recently achieved remarkable progress across diverse
domains, yet most evaluations focus on short-horizon, fully observable tasks.
In contrast, many critical real-world tasks, such as large-scale software
development, commercial investment, and scientific discovery, unfold in
long-horizon and partially observable scenarios where success hinges on
sustained reasoning, planning, memory management, and tool use. Existing
benchmarks rarely capture these long-horizon challenges, leaving a gap in
systematic evaluation. To bridge this gap, we introduce UltraHorizon a
novel benchmark that measures the foundational capabilities essential for
complex real-world challenges. We use exploration as a unifying task across
three distinct environments to validate these core competencies. Agents are
designed in long-horizon discovery tasks where they must iteratively uncover
hidden rules through sustained reasoning, planning, memory and tools
management, and interaction with environments. Under the heaviest scale
setting, trajectories average 200k+ tokens and 400+ tool
calls, whereas in standard configurations they still exceed 35k tokens
and involve more than 60 tool calls on average. Our extensive
experiments reveal that LLM-agents consistently underperform in these settings,
whereas human participants achieve higher scores, underscoring a persistent gap
in agents' long-horizon abilities. We also observe that simple scaling fails in
our task. To better illustrate the failure of agents, we conduct an in-depth
analysis of collected trajectories. We identify eight types of errors and
attribute them to two primary causes: in-context locking and functional
fundamental capability gaps.
https://github.com/StarDewXXX/UltraHorizon{Our code will be available
here.}