UltraHorizon: Bewertung der Fähigkeiten von Agenten in ultra langfristigen Szenarien
UltraHorizon: Benchmarking Agent Capabilities in Ultra Long-Horizon Scenarios
September 26, 2025
papers.authors: Haotian Luo, Huaisong Zhang, Xuelin Zhang, Haoyu Wang, Zeyu Qin, Wenjie Lu, Guozheng Ma, Haiying He, Yingsha Xie, Qiyang Zhou, Zixuan Hu, Hongze Mi, Yibo Wang, Naiqiang Tan, Hong Chen, Yi R. Fung, Chun Yuan, Li Shen
cs.AI
papers.abstract
Autonome Agenten haben in letzter Zeit bemerkenswerte Fortschritte in verschiedenen Domänen erzielt, doch konzentrieren sich die meisten Bewertungen auf kurzzeitige, vollständig beobachtbare Aufgaben. Im Gegensatz dazu entfalten sich viele kritische reale Aufgaben, wie die groß angelegte Softwareentwicklung, kommerzielle Investitionen und wissenschaftliche Entdeckungen, in langfristigen und teilweise beobachtbaren Szenarien, in denen der Erfolg von anhaltendem Denken, Planung, Speicherverwaltung und Werkzeuggebrauch abhängt. Bestehende Benchmarks erfassen diese langfristigen Herausforderungen selten, was eine Lücke in der systematischen Bewertung hinterlässt. Um diese Lücke zu schließen, stellen wir UltraHorizon vor, einen neuartigen Benchmark, der die grundlegenden Fähigkeiten misst, die für komplexe reale Herausforderungen unerlässlich sind. Wir verwenden Exploration als eine einheitliche Aufgabe in drei verschiedenen Umgebungen, um diese Kernkompetenzen zu validieren. Agenten werden in langfristigen Entdeckungsaufgaben entworfen, in denen sie versteckte Regeln durch anhaltendes Denken, Planung, Speicher- und Werkzeugverwaltung sowie Interaktion mit der Umgebung iterativ aufdecken müssen. Unter der anspruchsvollsten Skaleneinstellung betragen die Trajektorien im Durchschnitt über 200.000 Token und über 400 Werkzeugaufrufe, während sie in Standardkonfigurationen immer noch 35.000 Token überschreiten und im Durchschnitt mehr als 60 Werkzeugaufrufe umfassen. Unsere umfangreichen Experimente zeigen, dass LLM-Agenten in diesen Settings durchweg schlechter abschneiden, während menschliche Teilnehmer höhere Punktzahlen erreichen, was eine anhaltende Lücke in den langfristigen Fähigkeiten der Agenten unterstreicht. Wir beobachten auch, dass einfache Skalierung in unserer Aufgabe versagt. Um das Versagen der Agenten besser zu veranschaulichen, führen wir eine detaillierte Analyse der gesammelten Trajektorien durch. Wir identifizieren acht Fehlertypen und führen sie auf zwei Hauptursachen zurück: In-Context-Locking und grundlegende funktionale Fähigkeitslücken.
https://github.com/StarDewXXX/UltraHorizon{Unser Code wird hier verfügbar sein.}
English
Autonomous agents have recently achieved remarkable progress across diverse
domains, yet most evaluations focus on short-horizon, fully observable tasks.
In contrast, many critical real-world tasks, such as large-scale software
development, commercial investment, and scientific discovery, unfold in
long-horizon and partially observable scenarios where success hinges on
sustained reasoning, planning, memory management, and tool use. Existing
benchmarks rarely capture these long-horizon challenges, leaving a gap in
systematic evaluation. To bridge this gap, we introduce UltraHorizon a
novel benchmark that measures the foundational capabilities essential for
complex real-world challenges. We use exploration as a unifying task across
three distinct environments to validate these core competencies. Agents are
designed in long-horizon discovery tasks where they must iteratively uncover
hidden rules through sustained reasoning, planning, memory and tools
management, and interaction with environments. Under the heaviest scale
setting, trajectories average 200k+ tokens and 400+ tool
calls, whereas in standard configurations they still exceed 35k tokens
and involve more than 60 tool calls on average. Our extensive
experiments reveal that LLM-agents consistently underperform in these settings,
whereas human participants achieve higher scores, underscoring a persistent gap
in agents' long-horizon abilities. We also observe that simple scaling fails in
our task. To better illustrate the failure of agents, we conduct an in-depth
analysis of collected trajectories. We identify eight types of errors and
attribute them to two primary causes: in-context locking and functional
fundamental capability gaps.
https://github.com/StarDewXXX/UltraHorizon{Our code will be available
here.}