ChatPaper.aiChatPaper

UltraHorizon: Valutazione delle Capacità degli Agenti in Scenari a Orizzonte Ultra Lungo

UltraHorizon: Benchmarking Agent Capabilities in Ultra Long-Horizon Scenarios

September 26, 2025
Autori: Haotian Luo, Huaisong Zhang, Xuelin Zhang, Haoyu Wang, Zeyu Qin, Wenjie Lu, Guozheng Ma, Haiying He, Yingsha Xie, Qiyang Zhou, Zixuan Hu, Hongze Mi, Yibo Wang, Naiqiang Tan, Hong Chen, Yi R. Fung, Chun Yuan, Li Shen
cs.AI

Abstract

Gli agenti autonomi hanno recentemente compiuto progressi significativi in vari domini, tuttavia la maggior parte delle valutazioni si concentra su compiti a breve termine e completamente osservabili. Al contrario, molti compiti critici del mondo reale, come lo sviluppo di software su larga scala, gli investimenti commerciali e la scoperta scientifica, si svolgono in scenari a lungo termine e parzialmente osservabili, dove il successo dipende da un ragionamento sostenuto, pianificazione, gestione della memoria e uso di strumenti. Gli attuali benchmark raramente catturano queste sfide a lungo termine, lasciando un vuoto nella valutazione sistematica. Per colmare questa lacuna, introduciamo UltraHorizon, un nuovo benchmark che misura le capacità fondamentali essenziali per affrontare le complesse sfide del mondo reale. Utilizziamo l'esplorazione come compito unificante in tre ambienti distinti per validare queste competenze chiave. Gli agenti sono progettati per compiti di scoperta a lungo termine, in cui devono scoprire iterativamente regole nascoste attraverso un ragionamento sostenuto, pianificazione, gestione della memoria e degli strumenti, e interazione con l'ambiente. Nella configurazione più impegnativa, le traiettorie superano in media i 200k token e 400 chiamate a strumenti, mentre nelle configurazioni standard superano comunque i 35k token e coinvolgono in media più di 60 chiamate a strumenti. I nostri esperimenti estesi rivelano che gli agenti basati su LLM ottengono sistematicamente risultati inferiori in questi contesti, mentre i partecipanti umani raggiungono punteggi più alti, evidenziando un persistente divario nelle capacità a lungo termine degli agenti. Osserviamo inoltre che un semplice aumento di scala non è sufficiente per il nostro compito. Per illustrare meglio il fallimento degli agenti, conduciamo un'analisi approfondita delle traiettorie raccolte. Identifichiamo otto tipi di errori e li attribuiamo a due cause principali: il blocco contestuale e le lacune nelle capacità funzionali fondamentali. https://github.com/StarDewXXX/UltraHorizon{Il nostro codice sarà disponibile qui.}
English
Autonomous agents have recently achieved remarkable progress across diverse domains, yet most evaluations focus on short-horizon, fully observable tasks. In contrast, many critical real-world tasks, such as large-scale software development, commercial investment, and scientific discovery, unfold in long-horizon and partially observable scenarios where success hinges on sustained reasoning, planning, memory management, and tool use. Existing benchmarks rarely capture these long-horizon challenges, leaving a gap in systematic evaluation. To bridge this gap, we introduce UltraHorizon a novel benchmark that measures the foundational capabilities essential for complex real-world challenges. We use exploration as a unifying task across three distinct environments to validate these core competencies. Agents are designed in long-horizon discovery tasks where they must iteratively uncover hidden rules through sustained reasoning, planning, memory and tools management, and interaction with environments. Under the heaviest scale setting, trajectories average 200k+ tokens and 400+ tool calls, whereas in standard configurations they still exceed 35k tokens and involve more than 60 tool calls on average. Our extensive experiments reveal that LLM-agents consistently underperform in these settings, whereas human participants achieve higher scores, underscoring a persistent gap in agents' long-horizon abilities. We also observe that simple scaling fails in our task. To better illustrate the failure of agents, we conduct an in-depth analysis of collected trajectories. We identify eight types of errors and attribute them to two primary causes: in-context locking and functional fundamental capability gaps. https://github.com/StarDewXXX/UltraHorizon{Our code will be available here.}
PDF232September 29, 2025