PlanBench-XL: Evaluación de la Planificación a Largo Plazo de Agentes de Uso de Herramientas de LLM en Ecosistemas de Herramientas a Gran Escala

Resumen

Los agentes LLM operan cada vez más en grandes ecosistemas de herramientas, donde las tareas del mundo real requieren descubrir herramientas relevantes, inferir subobjetivos implícitos y adaptarse a entornos dinámicos en horizontes temporales extensos. Sin embargo, los benchmarks existentes rara vez evalúan la planificación bajo una visibilidad limitada de herramientas debido a la recuperación. Para abordar esta carencia, presentamos PlanBench-XL, un benchmark interactivo de 327 tareas minoristas sobre 1,665 herramientas que evalúa si los agentes pueden recuperar iterativamente herramientas utilizables, invocarlas para descubrir evidencia intermedia que permita llamadas posteriores hacia el objetivo final. PlanBench-XL incorpora además un mecanismo de bloqueo opcional que simula la imprevisibilidad del mundo real mediante funciones de herramientas faltantes, fallidas o distractoras, forzando a los agentes a detectar rutas interrumpidas y adaptarse en tiempo de ejecución. Experimentos con diez LLMs líderes muestran que la planificación con herramientas masivas sigue siendo un desafío: mientras que GPT-5.4 alcanza un 51.90% de precisión en entornos sin bloqueo, su rendimiento cae al 11.36% bajo la condición de bloqueo más severa. Análisis adicionales revelan que los agentes son especialmente vulnerables cuando los fallos carecen de señales de error explícitas o cuando la recuperación requiere trayectorias alternativas más largas de uso de herramientas. Estos resultados establecen a PlanBench-XL como un banco de pruebas para diagnosticar fallos de planificación agente y resaltan la necesidad de una planificación adaptativa robusta en tareas de largo horizonte con entornos de herramientas grandes e imperfectos.

English

LLM agents increasingly operate in large tool ecosystems, where real-world tasks require discovering relevant tools, inferring implicit sub-goals, and adapting to dynamic environments over long horizons. However, existing benchmarks rarely evaluate planning under retrieval-limited tool visibility. To address this gap, we introduce PlanBench-XL, an interactive benchmark of 327 retail tasks over 1,665 tools that tests whether agents can iteratively retrieve usable tools, invoke them to uncover intermediate evidence for subsequent calls toward the final goal. PlanBench-XL further features an optional blocking mechanism that simulates real-world unpredictability through missing, failing, or distracting tool functions, forcing agents to detect disrupted paths and adapt at runtime. Experiments on ten leading LLMs show that massive-tool planning remains challenging: while GPT-5.4 achieves 51.90% accuracy in block-free settings, it collapses to 11.36% under the most severe blocking condition. Further analysis shows that agents are especially vulnerable when failures lack explicit error signals or when recovery requires longer alternative tool-use paths. These results establish PlanBench-XL as a testbed for diagnosing agentic planning failures and highlight the need for robust adaptive planning in long-horizon tasks with large, imperfect tool environments.