PlanBench-XL: Evaluatie van langetermijnplanning van LLM-toolgebruikagenten in grootschalige tool-ecosystemen

Samenvatting

LLM-agenten opereren steeds vaker in grote tool-ecosystemen, waar taken uit de echte wereld het nodig maken om relevante tools te ontdekken, impliciete subdoelen af te leiden en zich aan te passen aan dynamische omgevingen over lange horizonnen. Bestaande benchmarks evalueren echter zelden planning onder retrieval-beperkte toolzichtbaarheid. Om deze leemte aan te vullen introduceren we PlanBench-XL, een interactieve benchmark van 327 retailtaken over 1.665 tools, die test of agenten iteratief bruikbare tools kunnen ophalen, deze kunnen aanroepen om tussentijds bewijs te achterhalen voor volgende aanroepen richting het uiteindelijke doel. PlanBench-XL heeft bovendien een optioneel blokkeringsmechanisme dat de onvoorspelbaarheid van de echte wereld simuleert via ontbrekende, falende of afleidende toolfuncties, waardoor agenten worden gedwongen om verstoorde paden te detecteren en zich tijdens runtime aan te passen. Experimenten met tien toonaangevende LLM's tonen aan dat planning met een groot aantal tools uitdagend blijft: hoewel GPT-5.4 een nauwkeurigheid van 51,90% haalt in blokkeervrije instellingen, zakt deze naar 11,36% onder de zwaarste blokkeringsconditie. Verdere analyse laat zien dat agenten bijzonder kwetsbaar zijn wanneer fouten ontbreken van duidelijke foutsignalen of wanneer herstel langere alternatieve toolgebruikspaden vereist. Deze resultaten vestigen PlanBench-XL als een testbed voor het diagnosticeren van agentische planningsfalen en benadrukken de noodzaak van robuuste adaptieve planning in taken met lange horizon en grote, imperfecte toolomgevingen.

English

LLM agents increasingly operate in large tool ecosystems, where real-world tasks require discovering relevant tools, inferring implicit sub-goals, and adapting to dynamic environments over long horizons. However, existing benchmarks rarely evaluate planning under retrieval-limited tool visibility. To address this gap, we introduce PlanBench-XL, an interactive benchmark of 327 retail tasks over 1,665 tools that tests whether agents can iteratively retrieve usable tools, invoke them to uncover intermediate evidence for subsequent calls toward the final goal. PlanBench-XL further features an optional blocking mechanism that simulates real-world unpredictability through missing, failing, or distracting tool functions, forcing agents to detect disrupted paths and adapt at runtime. Experiments on ten leading LLMs show that massive-tool planning remains challenging: while GPT-5.4 achieves 51.90% accuracy in block-free settings, it collapses to 11.36% under the most severe blocking condition. Further analysis shows that agents are especially vulnerable when failures lack explicit error signals or when recovery requires longer alternative tool-use paths. These results establish PlanBench-XL as a testbed for diagnosing agentic planning failures and highlight the need for robust adaptive planning in long-horizon tasks with large, imperfect tool environments.