PlanBench-XL: 大規模ツールエコシステムにおけるLLMツール使用エージェントの長期的計画の評価

要旨

LLMエージェントは、大規模なツールエコシステム内で動作する機会が増えており、現実世界のタスクでは関連ツールの発見、暗黙的なサブゴールの推論、長期間にわたる動的環境への適応が求められる。しかし、既存のベンチマークでは、取得制限のあるツール可視性下での計画立案はほとんど評価されていない。このギャップを埋めるため、我々はPlanBench-XLを導入する。これは、1,665個のツールにわたる327の小売タスクからなる対話型ベンチマークであり、エージェントが利用可能なツールを反復的に取得し、最終目標に向けた後続の呼び出しのための中間証拠を明らかにするためにそれらを呼び出す能力をテストする。PlanBench-XLはさらに、オプションのブロック機構を備えており、ツール機能の欠落、失敗、妨害を通じて現実世界の予測不可能性をシミュレートし、エージェントに中断された経路を検出させ、実行時に適応させる。10の主要なLLMを用いた実験では、大規模ツールを用いた計画立案が依然として困難であることが示された。GPT-5.4はブロックなしの設定で51.90%の精度を達成する一方、最も厳しいブロック条件下では11.36%にまで低下する。さらに分析により、障害に明示的なエラー信号が欠けている場合や、回復により長い代替ツール使用経路が必要な場合に、エージェントは特に脆弱であることが明らかになった。これらの結果は、PlanBench-XLをエージェントの計画立案の失敗を診断するためのテストベッドとして確立し、大規模で不完全なツール環境における長期的なタスクにおいて、堅牢な適応的計画立案の必要性を強調する。

English

LLM agents increasingly operate in large tool ecosystems, where real-world tasks require discovering relevant tools, inferring implicit sub-goals, and adapting to dynamic environments over long horizons. However, existing benchmarks rarely evaluate planning under retrieval-limited tool visibility. To address this gap, we introduce PlanBench-XL, an interactive benchmark of 327 retail tasks over 1,665 tools that tests whether agents can iteratively retrieve usable tools, invoke them to uncover intermediate evidence for subsequent calls toward the final goal. PlanBench-XL further features an optional blocking mechanism that simulates real-world unpredictability through missing, failing, or distracting tool functions, forcing agents to detect disrupted paths and adapt at runtime. Experiments on ten leading LLMs show that massive-tool planning remains challenging: while GPT-5.4 achieves 51.90% accuracy in block-free settings, it collapses to 11.36% under the most severe blocking condition. Further analysis shows that agents are especially vulnerable when failures lack explicit error signals or when recovery requires longer alternative tool-use paths. These results establish PlanBench-XL as a testbed for diagnosing agentic planning failures and highlight the need for robust adaptive planning in long-horizon tasks with large, imperfect tool environments.