UltraHorizon: Valutazione delle Capacità degli Agenti in Scenari a Orizzonte Ultra Lungo
UltraHorizon: Benchmarking Agent Capabilities in Ultra Long-Horizon Scenarios
September 26, 2025
Autori: Haotian Luo, Huaisong Zhang, Xuelin Zhang, Haoyu Wang, Zeyu Qin, Wenjie Lu, Guozheng Ma, Haiying He, Yingsha Xie, Qiyang Zhou, Zixuan Hu, Hongze Mi, Yibo Wang, Naiqiang Tan, Hong Chen, Yi R. Fung, Chun Yuan, Li Shen
cs.AI
Abstract
Gli agenti autonomi hanno recentemente compiuto progressi significativi in vari domini, tuttavia la maggior parte delle valutazioni si concentra su compiti a breve termine e completamente osservabili. Al contrario, molti compiti critici del mondo reale, come lo sviluppo di software su larga scala, gli investimenti commerciali e la scoperta scientifica, si svolgono in scenari a lungo termine e parzialmente osservabili, dove il successo dipende da un ragionamento sostenuto, pianificazione, gestione della memoria e uso di strumenti. Gli attuali benchmark raramente catturano queste sfide a lungo termine, lasciando un vuoto nella valutazione sistematica. Per colmare questa lacuna, introduciamo UltraHorizon, un nuovo benchmark che misura le capacità fondamentali essenziali per affrontare le complesse sfide del mondo reale. Utilizziamo l'esplorazione come compito unificante in tre ambienti distinti per validare queste competenze chiave. Gli agenti sono progettati per compiti di scoperta a lungo termine, in cui devono scoprire iterativamente regole nascoste attraverso un ragionamento sostenuto, pianificazione, gestione della memoria e degli strumenti, e interazione con l'ambiente. Nella configurazione più impegnativa, le traiettorie superano in media i 200k token e 400 chiamate a strumenti, mentre nelle configurazioni standard superano comunque i 35k token e coinvolgono in media più di 60 chiamate a strumenti. I nostri esperimenti estesi rivelano che gli agenti basati su LLM ottengono sistematicamente risultati inferiori in questi contesti, mentre i partecipanti umani raggiungono punteggi più alti, evidenziando un persistente divario nelle capacità a lungo termine degli agenti. Osserviamo inoltre che un semplice aumento di scala non è sufficiente per il nostro compito. Per illustrare meglio il fallimento degli agenti, conduciamo un'analisi approfondita delle traiettorie raccolte. Identifichiamo otto tipi di errori e li attribuiamo a due cause principali: il blocco contestuale e le lacune nelle capacità funzionali fondamentali.
https://github.com/StarDewXXX/UltraHorizon{Il nostro codice sarà disponibile qui.}
English
Autonomous agents have recently achieved remarkable progress across diverse
domains, yet most evaluations focus on short-horizon, fully observable tasks.
In contrast, many critical real-world tasks, such as large-scale software
development, commercial investment, and scientific discovery, unfold in
long-horizon and partially observable scenarios where success hinges on
sustained reasoning, planning, memory management, and tool use. Existing
benchmarks rarely capture these long-horizon challenges, leaving a gap in
systematic evaluation. To bridge this gap, we introduce UltraHorizon a
novel benchmark that measures the foundational capabilities essential for
complex real-world challenges. We use exploration as a unifying task across
three distinct environments to validate these core competencies. Agents are
designed in long-horizon discovery tasks where they must iteratively uncover
hidden rules through sustained reasoning, planning, memory and tools
management, and interaction with environments. Under the heaviest scale
setting, trajectories average 200k+ tokens and 400+ tool
calls, whereas in standard configurations they still exceed 35k tokens
and involve more than 60 tool calls on average. Our extensive
experiments reveal that LLM-agents consistently underperform in these settings,
whereas human participants achieve higher scores, underscoring a persistent gap
in agents' long-horizon abilities. We also observe that simple scaling fails in
our task. To better illustrate the failure of agents, we conduct an in-depth
analysis of collected trajectories. We identify eight types of errors and
attribute them to two primary causes: in-context locking and functional
fundamental capability gaps.
https://github.com/StarDewXXX/UltraHorizon{Our code will be available
here.}