UltraHorizon : Évaluation des Capacités des Agents dans des Scénarios à Ultra Long Terme
UltraHorizon: Benchmarking Agent Capabilities in Ultra Long-Horizon Scenarios
September 26, 2025
papers.authors: Haotian Luo, Huaisong Zhang, Xuelin Zhang, Haoyu Wang, Zeyu Qin, Wenjie Lu, Guozheng Ma, Haiying He, Yingsha Xie, Qiyang Zhou, Zixuan Hu, Hongze Mi, Yibo Wang, Naiqiang Tan, Hong Chen, Yi R. Fung, Chun Yuan, Li Shen
cs.AI
papers.abstract
Les agents autonomes ont récemment réalisé des progrès remarquables dans divers domaines, mais la plupart des évaluations se concentrent sur des tâches à court terme et entièrement observables. En revanche, de nombreuses tâches critiques du monde réel, telles que le développement de logiciels à grande échelle, les investissements commerciaux et les découvertes scientifiques, se déroulent dans des scénarios à long terme et partiellement observables où le succès dépend d'un raisonnement soutenu, d'une planification, d'une gestion de la mémoire et de l'utilisation d'outils. Les benchmarks existants capturent rarement ces défis à long terme, laissant un vide dans l'évaluation systématique. Pour combler cette lacune, nous introduisons UltraHorizon, un nouveau benchmark qui mesure les capacités fondamentales essentielles pour relever les défis complexes du monde réel. Nous utilisons l'exploration comme tâche unificatrice à travers trois environnements distincts pour valider ces compétences clés. Les agents sont conçus pour des tâches de découverte à long terme où ils doivent découvrir de manière itérative des règles cachées grâce à un raisonnement soutenu, une planification, une gestion de la mémoire et des outils, ainsi qu'une interaction avec les environnements. Dans le cadre de l'échelle la plus lourde, les trajectoires atteignent en moyenne plus de 200 000 tokens et plus de 400 appels d'outils, tandis que dans les configurations standard, elles dépassent encore 35 000 tokens et impliquent en moyenne plus de 60 appels d'outils. Nos expériences approfondies révèlent que les agents basés sur des modèles de langage (LLM) sous-performent systématiquement dans ces contextes, alors que les participants humains obtiennent des scores plus élevés, soulignant un écart persistant dans les capacités à long terme des agents. Nous observons également qu'un simple passage à l'échelle échoue dans notre tâche. Pour mieux illustrer l'échec des agents, nous menons une analyse approfondie des trajectoires collectées. Nous identifions huit types d'erreurs et les attribuons à deux causes principales : le verrouillage en contexte et les lacunes fondamentales dans les capacités fonctionnelles.
https://github.com/StarDewXXX/UltraHorizon{Notre code sera disponible ici.}
English
Autonomous agents have recently achieved remarkable progress across diverse
domains, yet most evaluations focus on short-horizon, fully observable tasks.
In contrast, many critical real-world tasks, such as large-scale software
development, commercial investment, and scientific discovery, unfold in
long-horizon and partially observable scenarios where success hinges on
sustained reasoning, planning, memory management, and tool use. Existing
benchmarks rarely capture these long-horizon challenges, leaving a gap in
systematic evaluation. To bridge this gap, we introduce UltraHorizon a
novel benchmark that measures the foundational capabilities essential for
complex real-world challenges. We use exploration as a unifying task across
three distinct environments to validate these core competencies. Agents are
designed in long-horizon discovery tasks where they must iteratively uncover
hidden rules through sustained reasoning, planning, memory and tools
management, and interaction with environments. Under the heaviest scale
setting, trajectories average 200k+ tokens and 400+ tool
calls, whereas in standard configurations they still exceed 35k tokens
and involve more than 60 tool calls on average. Our extensive
experiments reveal that LLM-agents consistently underperform in these settings,
whereas human participants achieve higher scores, underscoring a persistent gap
in agents' long-horizon abilities. We also observe that simple scaling fails in
our task. To better illustrate the failure of agents, we conduct an in-depth
analysis of collected trajectories. We identify eight types of errors and
attribute them to two primary causes: in-context locking and functional
fundamental capability gaps.
https://github.com/StarDewXXX/UltraHorizon{Our code will be available
here.}