UltraHorizon: Avaliando as Capacidades de Agentes em Cenários de Horizonte Ultra Longo

Resumo

Agentes autônomos têm alcançado progressos notáveis recentemente em diversos domínios, mas a maioria das avaliações se concentra em tarefas de curto prazo e totalmente observáveis. Em contraste, muitas tarefas críticas do mundo real, como o desenvolvimento de software em larga escala, investimentos comerciais e descobertas científicas, ocorrem em cenários de longo prazo e parcialmente observáveis, onde o sucesso depende de raciocínio sustentado, planejamento, gerenciamento de memória e uso de ferramentas. Os benchmarks existentes raramente capturam esses desafios de longo prazo, deixando uma lacuna na avaliação sistemática. Para preencher essa lacuna, apresentamos o UltraHorizon, um novo benchmark que mede as capacidades fundamentais essenciais para desafios complexos do mundo real. Utilizamos a exploração como uma tarefa unificadora em três ambientes distintos para validar essas competências essenciais. Os agentes são projetados para tarefas de descoberta de longo prazo, onde devem descobrir iterativamente regras ocultas por meio de raciocínio sustentado, planejamento, gerenciamento de memória e ferramentas, e interação com os ambientes. Na configuração de maior escala, as trajetórias têm em média mais de 200 mil tokens e mais de 400 chamadas de ferramentas, enquanto nas configurações padrão ainda excedem 35 mil tokens e envolvem mais de 60 chamadas de ferramentas em média. Nossos experimentos extensivos revelam que os agentes baseados em LLM têm desempenho consistentemente inferior nessas configurações, enquanto os participantes humanos alcançam pontuações mais altas, destacando uma lacuna persistente nas habilidades de longo prazo dos agentes. Também observamos que o simples aumento de escala falha em nossa tarefa. Para ilustrar melhor a falha dos agentes, realizamos uma análise detalhada das trajetórias coletadas. Identificamos oito tipos de erros e os atribuímos a duas causas principais: bloqueio em contexto e lacunas fundamentais nas capacidades funcionais. https://github.com/StarDewXXX/UltraHorizon{Nosso código estará disponível aqui.}

English

Autonomous agents have recently achieved remarkable progress across diverse domains, yet most evaluations focus on short-horizon, fully observable tasks. In contrast, many critical real-world tasks, such as large-scale software development, commercial investment, and scientific discovery, unfold in long-horizon and partially observable scenarios where success hinges on sustained reasoning, planning, memory management, and tool use. Existing benchmarks rarely capture these long-horizon challenges, leaving a gap in systematic evaluation. To bridge this gap, we introduce UltraHorizon a novel benchmark that measures the foundational capabilities essential for complex real-world challenges. We use exploration as a unifying task across three distinct environments to validate these core competencies. Agents are designed in long-horizon discovery tasks where they must iteratively uncover hidden rules through sustained reasoning, planning, memory and tools management, and interaction with environments. Under the heaviest scale setting, trajectories average 200k+ tokens and 400+ tool calls, whereas in standard configurations they still exceed 35k tokens and involve more than 60 tool calls on average. Our extensive experiments reveal that LLM-agents consistently underperform in these settings, whereas human participants achieve higher scores, underscoring a persistent gap in agents' long-horizon abilities. We also observe that simple scaling fails in our task. To better illustrate the failure of agents, we conduct an in-depth analysis of collected trajectories. We identify eight types of errors and attribute them to two primary causes: in-context locking and functional fundamental capability gaps. https://github.com/StarDewXXX/UltraHorizon{Our code will be available here.}

UltraHorizon: Avaliando as Capacidades de Agentes em Cenários de Horizonte Ultra Longo

UltraHorizon: Benchmarking Agent Capabilities in Ultra Long-Horizon Scenarios

Resumo

Support