UltraHorizon: Avaliando as Capacidades de Agentes em Cenários de Horizonte Ultra Longo
UltraHorizon: Benchmarking Agent Capabilities in Ultra Long-Horizon Scenarios
September 26, 2025
Autores: Haotian Luo, Huaisong Zhang, Xuelin Zhang, Haoyu Wang, Zeyu Qin, Wenjie Lu, Guozheng Ma, Haiying He, Yingsha Xie, Qiyang Zhou, Zixuan Hu, Hongze Mi, Yibo Wang, Naiqiang Tan, Hong Chen, Yi R. Fung, Chun Yuan, Li Shen
cs.AI
Resumo
Agentes autônomos têm alcançado progressos notáveis recentemente em diversos domínios, mas a maioria das avaliações se concentra em tarefas de curto prazo e totalmente observáveis. Em contraste, muitas tarefas críticas do mundo real, como o desenvolvimento de software em larga escala, investimentos comerciais e descobertas científicas, ocorrem em cenários de longo prazo e parcialmente observáveis, onde o sucesso depende de raciocínio sustentado, planejamento, gerenciamento de memória e uso de ferramentas. Os benchmarks existentes raramente capturam esses desafios de longo prazo, deixando uma lacuna na avaliação sistemática. Para preencher essa lacuna, apresentamos o UltraHorizon, um novo benchmark que mede as capacidades fundamentais essenciais para desafios complexos do mundo real. Utilizamos a exploração como uma tarefa unificadora em três ambientes distintos para validar essas competências essenciais. Os agentes são projetados para tarefas de descoberta de longo prazo, onde devem descobrir iterativamente regras ocultas por meio de raciocínio sustentado, planejamento, gerenciamento de memória e ferramentas, e interação com os ambientes. Na configuração de maior escala, as trajetórias têm em média mais de 200 mil tokens e mais de 400 chamadas de ferramentas, enquanto nas configurações padrão ainda excedem 35 mil tokens e envolvem mais de 60 chamadas de ferramentas em média. Nossos experimentos extensivos revelam que os agentes baseados em LLM têm desempenho consistentemente inferior nessas configurações, enquanto os participantes humanos alcançam pontuações mais altas, destacando uma lacuna persistente nas habilidades de longo prazo dos agentes. Também observamos que o simples aumento de escala falha em nossa tarefa. Para ilustrar melhor a falha dos agentes, realizamos uma análise detalhada das trajetórias coletadas. Identificamos oito tipos de erros e os atribuímos a duas causas principais: bloqueio em contexto e lacunas fundamentais nas capacidades funcionais.
https://github.com/StarDewXXX/UltraHorizon{Nosso código estará disponível aqui.}
English
Autonomous agents have recently achieved remarkable progress across diverse
domains, yet most evaluations focus on short-horizon, fully observable tasks.
In contrast, many critical real-world tasks, such as large-scale software
development, commercial investment, and scientific discovery, unfold in
long-horizon and partially observable scenarios where success hinges on
sustained reasoning, planning, memory management, and tool use. Existing
benchmarks rarely capture these long-horizon challenges, leaving a gap in
systematic evaluation. To bridge this gap, we introduce UltraHorizon a
novel benchmark that measures the foundational capabilities essential for
complex real-world challenges. We use exploration as a unifying task across
three distinct environments to validate these core competencies. Agents are
designed in long-horizon discovery tasks where they must iteratively uncover
hidden rules through sustained reasoning, planning, memory and tools
management, and interaction with environments. Under the heaviest scale
setting, trajectories average 200k+ tokens and 400+ tool
calls, whereas in standard configurations they still exceed 35k tokens
and involve more than 60 tool calls on average. Our extensive
experiments reveal that LLM-agents consistently underperform in these settings,
whereas human participants achieve higher scores, underscoring a persistent gap
in agents' long-horizon abilities. We also observe that simple scaling fails in
our task. To better illustrate the failure of agents, we conduct an in-depth
analysis of collected trajectories. We identify eight types of errors and
attribute them to two primary causes: in-context locking and functional
fundamental capability gaps.
https://github.com/StarDewXXX/UltraHorizon{Our code will be available
here.}