PlanBench-XL: Оценка долгосрочного планирования LLM-агентов, использующих инструменты, в крупномасштабных экосистемах инструментов

Аннотация

LLM-агенты всё чаще работают в крупных экосистемах инструментов, где задачи реального мира требуют поиска релевантных инструментов, вывода неявных подцелей и адаптации к динамичным условиям на длительных горизонтах. Однако существующие бенчмарки редко оценивают планирование в условиях ограниченной видимости инструментов при поиске. Для устранения этого пробела мы представляем PlanBench-XL — интерактивный бенчмарк, включающий 327 задач розничной торговли с использованием 1,665 инструментов, который проверяет, способны ли агенты итеративно извлекать пригодные инструменты, вызывать их для получения промежуточных свидетельств, необходимых для последующих вызовов на пути к конечной цели. PlanBench-XL дополнительно оснащён опциональным механизмом блокировки, моделирующим непредсказуемость реального мира через отсутствующие, сбойные или отвлекающие функции инструментов, вынуждая агентов обнаруживать нарушенные пути и адаптироваться во время выполнения. Эксперименты с десятью ведущими LLM показывают, что планирование с большим множеством инструментов остаётся сложной задачей: хотя GPT-5.4 достигает 51,90% точности в условиях без блокировок, при наиболее жёстком сценарии блокировки его точность падает до 11,36%. Дальнейший анализ показывает, что агенты особенно уязвимы, когда сбои не сопровождаются явными сигналами об ошибках или когда для восстановления требуются более длинные альтернативные цепочки использования инструментов. Эти результаты утверждают PlanBench-XL в качестве испытательного полигона для диагностики сбоев в планировании агентов и подчёркивают необходимость в надёжном адаптивном планировании при решении долгосрочных задач в обширных неидеальных средах инструментов.

English

LLM agents increasingly operate in large tool ecosystems, where real-world tasks require discovering relevant tools, inferring implicit sub-goals, and adapting to dynamic environments over long horizons. However, existing benchmarks rarely evaluate planning under retrieval-limited tool visibility. To address this gap, we introduce PlanBench-XL, an interactive benchmark of 327 retail tasks over 1,665 tools that tests whether agents can iteratively retrieve usable tools, invoke them to uncover intermediate evidence for subsequent calls toward the final goal. PlanBench-XL further features an optional blocking mechanism that simulates real-world unpredictability through missing, failing, or distracting tool functions, forcing agents to detect disrupted paths and adapt at runtime. Experiments on ten leading LLMs show that massive-tool planning remains challenging: while GPT-5.4 achieves 51.90% accuracy in block-free settings, it collapses to 11.36% under the most severe blocking condition. Further analysis shows that agents are especially vulnerable when failures lack explicit error signals or when recovery requires longer alternative tool-use paths. These results establish PlanBench-XL as a testbed for diagnosing agentic planning failures and highlight the need for robust adaptive planning in long-horizon tasks with large, imperfect tool environments.