ChatPaper.aiChatPaper

UltraHorizon: Het benchmarken van agentcapaciteiten in ultra langetermijnscenario's

UltraHorizon: Benchmarking Agent Capabilities in Ultra Long-Horizon Scenarios

September 26, 2025
Auteurs: Haotian Luo, Huaisong Zhang, Xuelin Zhang, Haoyu Wang, Zeyu Qin, Wenjie Lu, Guozheng Ma, Haiying He, Yingsha Xie, Qiyang Zhou, Zixuan Hu, Hongze Mi, Yibo Wang, Naiqiang Tan, Hong Chen, Yi R. Fung, Chun Yuan, Li Shen
cs.AI

Samenvatting

Autonome agents hebben recentelijk opmerkelijke vooruitgang geboekt in diverse domeinen, maar de meeste evaluaties richten zich op kortetermijntaken met volledige observatie. Daarentegen spelen veel kritieke taken in de echte wereld, zoals grootschalige softwareontwikkeling, commerciële investeringen en wetenschappelijke ontdekkingen, zich af in langetermijn- en gedeeltelijk observeerbare scenario's waar succes afhangt van aanhoudend redeneren, plannen, geheugenbeheer en het gebruik van tools. Bestaande benchmarks vangen deze langetermijnuitdagingen zelden, wat een gat laat in systematische evaluatie. Om dit gat te overbruggen, introduceren we UltraHorizon, een nieuwe benchmark die de fundamentele capaciteiten meet die essentieel zijn voor complexe uitdagingen in de echte wereld. We gebruiken exploratie als een overkoepelende taak in drie verschillende omgevingen om deze kerncompetenties te valideren. Agents worden ontworpen voor langetermijnontdekkings taken waarin ze iteratief verborgen regels moeten ontdekken door middel van aanhoudend redeneren, plannen, geheugen- en toolbeheer, en interactie met de omgeving. Onder de zwaarste schaalinstelling hebben trajecten gemiddeld meer dan 200k tokens en 400+ toolaanroepen, terwijl ze in standaardconfiguraties nog steeds meer dan 35k tokens overschrijden en gemiddeld meer dan 60 toolaanroepen omvatten. Onze uitgebreide experimenten tonen aan dat LLM-agents consistent onderpresteren in deze instellingen, terwijl menselijke deelnemers hogere scores behalen, wat een persistent gat in de langetermijncapaciteiten van agents benadrukt. We observeren ook dat eenvoudige schaalvergroting faalt in onze taak. Om het falen van agents beter te illustreren, voeren we een diepgaande analyse uit van verzamelde trajecten. We identificeren acht soorten fouten en schrijven deze toe aan twee primaire oorzaken: in-context vergrendeling en fundamentele functionele capaciteitsgaten. https://github.com/StarDewXXX/UltraHorizon{Onze code zal hier beschikbaar zijn.}
English
Autonomous agents have recently achieved remarkable progress across diverse domains, yet most evaluations focus on short-horizon, fully observable tasks. In contrast, many critical real-world tasks, such as large-scale software development, commercial investment, and scientific discovery, unfold in long-horizon and partially observable scenarios where success hinges on sustained reasoning, planning, memory management, and tool use. Existing benchmarks rarely capture these long-horizon challenges, leaving a gap in systematic evaluation. To bridge this gap, we introduce UltraHorizon a novel benchmark that measures the foundational capabilities essential for complex real-world challenges. We use exploration as a unifying task across three distinct environments to validate these core competencies. Agents are designed in long-horizon discovery tasks where they must iteratively uncover hidden rules through sustained reasoning, planning, memory and tools management, and interaction with environments. Under the heaviest scale setting, trajectories average 200k+ tokens and 400+ tool calls, whereas in standard configurations they still exceed 35k tokens and involve more than 60 tool calls on average. Our extensive experiments reveal that LLM-agents consistently underperform in these settings, whereas human participants achieve higher scores, underscoring a persistent gap in agents' long-horizon abilities. We also observe that simple scaling fails in our task. To better illustrate the failure of agents, we conduct an in-depth analysis of collected trajectories. We identify eight types of errors and attribute them to two primary causes: in-context locking and functional fundamental capability gaps. https://github.com/StarDewXXX/UltraHorizon{Our code will be available here.}
PDF232September 29, 2025