PlanBench-XL : Évaluation de la planification à long horizon des agents LLM utilisant des outils dans des écosystèmes d'outils à grande échelle.

Résumé

Les agents LLM évoluent de plus en plus dans de grands écosystèmes d'outils, où les tâches du monde réel nécessitent de découvrir les outils pertinents, d'inférer des sous-objectifs implicites et de s'adapter à des environnements dynamiques sur de longs horizons. Cependant, les benchmarks existants évaluent rarement la planification sous une visibilité limitée des outils par la récupération. Pour combler cette lacune, nous présentons PlanBench-XL, un benchmark interactif composé de 327 tâches de vente au détail portant sur 1 665 outils, qui teste la capacité des agents à récupérer itérativement des outils utilisables, à les invoquer pour découvrir des preuves intermédiaires nécessaires aux appels suivants en vue de l'objectif final. PlanBench-XL propose en outre un mécanisme de blocage facultatif qui simule l'imprévisibilité du monde réel via des fonctions d'outils manquantes, défaillantes ou distrayantes, obligeant ainsi les agents à détecter les chemins perturbés et à s'adapter en cours d'exécution. Les expériences menées sur dix LLM leaders montrent que la planification avec de nombreux outils reste un défi : alors que GPT-5.4 atteint une précision de 51,90 % dans des environnements sans blocage, celle-ci chute à 11,36 % sous la condition de blocage la plus sévère. Une analyse plus approfondie révèle que les agents sont particulièrement vulnérables lorsque les échecs ne fournissent pas de signaux d'erreur explicites, ou lorsque la récupération nécessite des chemins d'utilisation d'outils alternatifs plus longs. Ces résultats établissent PlanBench-XL comme un banc d'essai pour diagnostiquer les échecs de planification agentique et soulignent la nécessité d'une planification adaptative robuste dans les tâches à long horizon impliquant de grands environnements d'outils imparfaits.

English

LLM agents increasingly operate in large tool ecosystems, where real-world tasks require discovering relevant tools, inferring implicit sub-goals, and adapting to dynamic environments over long horizons. However, existing benchmarks rarely evaluate planning under retrieval-limited tool visibility. To address this gap, we introduce PlanBench-XL, an interactive benchmark of 327 retail tasks over 1,665 tools that tests whether agents can iteratively retrieve usable tools, invoke them to uncover intermediate evidence for subsequent calls toward the final goal. PlanBench-XL further features an optional blocking mechanism that simulates real-world unpredictability through missing, failing, or distracting tool functions, forcing agents to detect disrupted paths and adapt at runtime. Experiments on ten leading LLMs show that massive-tool planning remains challenging: while GPT-5.4 achieves 51.90% accuracy in block-free settings, it collapses to 11.36% under the most severe blocking condition. Further analysis shows that agents are especially vulnerable when failures lack explicit error signals or when recovery requires longer alternative tool-use paths. These results establish PlanBench-XL as a testbed for diagnosing agentic planning failures and highlight the need for robust adaptive planning in long-horizon tasks with large, imperfect tool environments.