DeepPlanning: Evaluación de la Planificación Agéntica de Largo Horizonte con Restricciones Verificables
DeepPlanning: Benchmarking Long-Horizon Agentic Planning with Verifiable Constraints
January 26, 2026
Autores: Yinger Zhang, Shutong Jiang, Renhao Li, Jianhong Tu, Yang Su, Lianghao Deng, Xudong Guo, Chenxu Lv, Junyang Lin
cs.AI
Resumen
Si bien la evaluación de agentes ha evolucionado hacia tareas de horizonte largo, la mayoría de los puntos de referencia aún enfatizan el razonamiento local a nivel de paso, en lugar de la optimización restringida global (por ejemplo, presupuestos de tiempo y financieros) que exige una genuina capacidad de planificación. Paralelamente, los puntos de referencia existentes para la planificación con LLM representan insuficientemente la recopilación activa de información y las restricciones locales de granularidad fina típicas de entornos del mundo real. Para abordar esto, presentamos DeepPlanning, un punto de referencia desafiante para la planificación práctica de agentes a largo plazo. Este incluye tareas de planificación de viajes de varios días y compras de múltiples productos que requieren adquisición proactiva de información, razonamiento restringido local y optimización restringida global. Las evaluaciones en DeepPlanning muestran que incluso los LLMs agenticos más avanzados tienen dificultades con estos problemas, destacando la importancia de patrones de razonamiento explícito confiables y el uso paralelo de herramientas para lograr mejores compensaciones entre efectividad y eficiencia. El análisis de errores señala además direcciones prometedoras para mejorar los LLMs agenticos en horizontes de planificación largos. Liberamos el código y los datos como código abierto para apoyar la investigación futura.
English
While agent evaluation has shifted toward long-horizon tasks, most benchmarks still emphasize local, step-level reasoning rather than the global constrained optimization (e.g., time and financial budgets) that demands genuine planning ability. Meanwhile, existing LLM planning benchmarks underrepresent the active information gathering and fine-grained local constraints typical of real-world settings. To address this, we introduce DeepPlanning, a challenging benchmark for practical long-horizon agent planning. It features multi-day travel planning and multi-product shopping tasks that require proactive information acquisition, local constrained reasoning, and global constrained optimization. Evaluations on DeepPlanning show that even frontier agentic LLMs struggle with these problems, highlighting the importance of reliable explicit reasoning patterns and parallel tool use for achieving better effectiveness-efficiency trade-offs. Error analysis further points to promising directions for improving agentic LLMs over long planning horizons. We open-source the code and data to support future research.