UltraHorizon: Оценка возможностей агентов в сценариях с ультрадолгосрочным горизонтом планирования

Аннотация

Автономные агенты в последнее время достигли значительного прогресса в различных областях, однако большинство оценок сосредоточено на задачах с коротким горизонтом и полной наблюдаемостью. В то же время многие важные задачи реального мира, такие как крупномасштабная разработка программного обеспечения, коммерческие инвестиции и научные открытия, разворачиваются в сценариях с длительным горизонтом и частичной наблюдаемостью, где успех зависит от устойчивого рассуждения, планирования, управления памятью и использования инструментов. Существующие бенчмарки редко охватывают эти долгосрочные вызовы, оставляя пробел в систематической оценке. Чтобы устранить этот пробел, мы представляем UltraHorizon — новый бенчмарк, который измеряет фундаментальные способности, необходимые для сложных задач реального мира. Мы используем исследование как универсальную задачу в трех различных средах для проверки этих ключевых компетенций. Агенты разработаны для задач долгосрочного открытия, где они должны итеративно раскрывать скрытые правила через устойчивое рассуждение, планирование, управление памятью и инструментами, а также взаимодействие с окружением. В наиболее масштабной настройке траектории в среднем превышают 200 тысяч токенов и 400 вызовов инструментов, тогда как в стандартных конфигурациях они все равно превышают 35 тысяч токенов и включают более 60 вызовов инструментов в среднем. Наши обширные эксперименты показывают, что агенты на основе языковых моделей (LLM) стабильно показывают низкие результаты в этих условиях, тогда как человеческие участники достигают более высоких баллов, что подчеркивает сохраняющийся разрыв в долгосрочных способностях агентов. Мы также наблюдаем, что простое масштабирование неэффективно в нашей задаче. Чтобы лучше проиллюстрировать неудачи агентов, мы проводим углубленный анализ собранных траекторий. Мы выделяем восемь типов ошибок и связываем их с двумя основными причинами: блокировкой в контексте и фундаментальными пробелами в функциональных возможностях. https://github.com/StarDewXXX/UltraHorizon{Наш код будет доступен здесь.}

English

Autonomous agents have recently achieved remarkable progress across diverse domains, yet most evaluations focus on short-horizon, fully observable tasks. In contrast, many critical real-world tasks, such as large-scale software development, commercial investment, and scientific discovery, unfold in long-horizon and partially observable scenarios where success hinges on sustained reasoning, planning, memory management, and tool use. Existing benchmarks rarely capture these long-horizon challenges, leaving a gap in systematic evaluation. To bridge this gap, we introduce UltraHorizon a novel benchmark that measures the foundational capabilities essential for complex real-world challenges. We use exploration as a unifying task across three distinct environments to validate these core competencies. Agents are designed in long-horizon discovery tasks where they must iteratively uncover hidden rules through sustained reasoning, planning, memory and tools management, and interaction with environments. Under the heaviest scale setting, trajectories average 200k+ tokens and 400+ tool calls, whereas in standard configurations they still exceed 35k tokens and involve more than 60 tool calls on average. Our extensive experiments reveal that LLM-agents consistently underperform in these settings, whereas human participants achieve higher scores, underscoring a persistent gap in agents' long-horizon abilities. We also observe that simple scaling fails in our task. To better illustrate the failure of agents, we conduct an in-depth analysis of collected trajectories. We identify eight types of errors and attribute them to two primary causes: in-context locking and functional fundamental capability gaps. https://github.com/StarDewXXX/UltraHorizon{Our code will be available here.}

UltraHorizon: Оценка возможностей агентов в сценариях с ультрадолгосрочным горизонтом планирования

UltraHorizon: Benchmarking Agent Capabilities in Ultra Long-Horizon Scenarios

Аннотация

Support