UltraHorizon: Evaluación de las Capacidades de los Agentes en Escenarios de Horizonte Ultra Largo
UltraHorizon: Benchmarking Agent Capabilities in Ultra Long-Horizon Scenarios
September 26, 2025
Autores: Haotian Luo, Huaisong Zhang, Xuelin Zhang, Haoyu Wang, Zeyu Qin, Wenjie Lu, Guozheng Ma, Haiying He, Yingsha Xie, Qiyang Zhou, Zixuan Hu, Hongze Mi, Yibo Wang, Naiqiang Tan, Hong Chen, Yi R. Fung, Chun Yuan, Li Shen
cs.AI
Resumen
Los agentes autónomos han logrado recientemente avances notables en diversos dominios, aunque la mayoría de las evaluaciones se centran en tareas de horizonte corto y completamente observables. En contraste, muchas tareas críticas del mundo real, como el desarrollo de software a gran escala, la inversión comercial y el descubrimiento científico, se desarrollan en escenarios de horizonte largo y parcialmente observables, donde el éxito depende del razonamiento sostenido, la planificación, la gestión de la memoria y el uso de herramientas. Los puntos de referencia existentes rara vez capturan estos desafíos de horizonte largo, dejando un vacío en la evaluación sistemática. Para cerrar esta brecha, presentamos UltraHorizon, un nuevo punto de referencia que mide las capacidades fundamentales esenciales para los desafíos complejos del mundo real. Utilizamos la exploración como una tarea unificadora en tres entornos distintos para validar estas competencias centrales. Los agentes están diseñados para tareas de descubrimiento de horizonte largo, donde deben descubrir iterativamente reglas ocultas mediante razonamiento sostenido, planificación, gestión de memoria y herramientas, e interacción con los entornos. En la configuración de mayor escala, las trayectorias promedian más de 200,000 tokens y más de 400 llamadas a herramientas, mientras que en configuraciones estándar aún superan los 35,000 tokens e involucran más de 60 llamadas a herramientas en promedio. Nuestros extensos experimentos revelan que los agentes basados en modelos de lenguaje (LLM) tienen un rendimiento consistentemente inferior en estos entornos, mientras que los participantes humanos logran puntajes más altos, destacando una brecha persistente en las habilidades de horizonte largo de los agentes. También observamos que el simple escalamiento falla en nuestra tarea. Para ilustrar mejor el fracaso de los agentes, realizamos un análisis en profundidad de las trayectorias recopiladas. Identificamos ocho tipos de errores y los atribuimos a dos causas principales: bloqueo en el contexto y brechas fundamentales en las capacidades funcionales.
https://github.com/StarDewXXX/UltraHorizon{Nuestro código estará disponible aquí.}
English
Autonomous agents have recently achieved remarkable progress across diverse
domains, yet most evaluations focus on short-horizon, fully observable tasks.
In contrast, many critical real-world tasks, such as large-scale software
development, commercial investment, and scientific discovery, unfold in
long-horizon and partially observable scenarios where success hinges on
sustained reasoning, planning, memory management, and tool use. Existing
benchmarks rarely capture these long-horizon challenges, leaving a gap in
systematic evaluation. To bridge this gap, we introduce UltraHorizon a
novel benchmark that measures the foundational capabilities essential for
complex real-world challenges. We use exploration as a unifying task across
three distinct environments to validate these core competencies. Agents are
designed in long-horizon discovery tasks where they must iteratively uncover
hidden rules through sustained reasoning, planning, memory and tools
management, and interaction with environments. Under the heaviest scale
setting, trajectories average 200k+ tokens and 400+ tool
calls, whereas in standard configurations they still exceed 35k tokens
and involve more than 60 tool calls on average. Our extensive
experiments reveal that LLM-agents consistently underperform in these settings,
whereas human participants achieve higher scores, underscoring a persistent gap
in agents' long-horizon abilities. We also observe that simple scaling fails in
our task. To better illustrate the failure of agents, we conduct an in-depth
analysis of collected trajectories. We identify eight types of errors and
attribute them to two primary causes: in-context locking and functional
fundamental capability gaps.
https://github.com/StarDewXXX/UltraHorizon{Our code will be available
here.}