PlanBench-XL: Evaluierung der Langzeitplanung von LLM-Werkzeugnutzungsagenten in großskaligen Werkzeugökosystemen

Zusammenfassung

LLM-Agenten operieren zunehmend in großen Tool-Ökosystemen, in denen reale Aufgaben das Auffinden relevanter Tools, das Ableiten impliziter Teilziele und die Anpassung an dynamische Umgebungen über lange Zeithorizonte erfordern. Bestehende Benchmarks evaluieren jedoch selten die Planung unter einer durch Retrieval eingeschränkten Tool-Sichtbarkeit. Um diese Lücke zu schließen, führen wir PlanBench-XL ein, einen interaktiven Benchmark mit 327 Einzelhandelsaufgaben über 1.665 Tools, der testet, ob Agenten iterativ nutzbare Tools abrufen, sie einsetzen können, um Zwischennachweise für nachfolgende Aufrufe in Richtung des Endziels zu ermitteln. PlanBench-XL bietet zudem einen optionalen Blockierungsmechanismus, der die Unvorhersehbarkeit der realen Welt durch fehlende, fehlerhafte oder ablenkende Tool-Funktionen simuliert und Agenten zwingt, unterbrochene Pfade zu erkennen und zur Laufzeit anzupassen. Experimente mit zehn führenden LLMs zeigen, dass die Planung mit massiven Tool-Mengen weiterhin eine Herausforderung darstellt: Während GPT-5.4 in blockierungsfreien Einstellungen eine Genauigkeit von 51,90 % erreicht, sinkt diese unter der schwersten Blockierungsbedingung auf 11,36 % ab. Weitere Analysen zeigen, dass Agenten besonders anfällig sind, wenn Fehlern explizite Fehlersignale fehlen oder wenn die Wiederherstellung längere alternative Tool-Nutzungspfade erfordert. Diese Ergebnisse etablieren PlanBench-XL als Testumgebung zur Diagnose agentischer Planungsfehler und unterstreichen die Notwendigkeit einer robusten adaptiven Planung für langfristige Aufgaben mit großen, unvollkommenen Tool-Umgebungen.

English

LLM agents increasingly operate in large tool ecosystems, where real-world tasks require discovering relevant tools, inferring implicit sub-goals, and adapting to dynamic environments over long horizons. However, existing benchmarks rarely evaluate planning under retrieval-limited tool visibility. To address this gap, we introduce PlanBench-XL, an interactive benchmark of 327 retail tasks over 1,665 tools that tests whether agents can iteratively retrieve usable tools, invoke them to uncover intermediate evidence for subsequent calls toward the final goal. PlanBench-XL further features an optional blocking mechanism that simulates real-world unpredictability through missing, failing, or distracting tool functions, forcing agents to detect disrupted paths and adapt at runtime. Experiments on ten leading LLMs show that massive-tool planning remains challenging: while GPT-5.4 achieves 51.90% accuracy in block-free settings, it collapses to 11.36% under the most severe blocking condition. Further analysis shows that agents are especially vulnerable when failures lack explicit error signals or when recovery requires longer alternative tool-use paths. These results establish PlanBench-XL as a testbed for diagnosing agentic planning failures and highlight the need for robust adaptive planning in long-horizon tasks with large, imperfect tool environments.