DeepPlanning : Évaluation comparative de la planification agentique à long horizon avec contraintes vérifiables
DeepPlanning: Benchmarking Long-Horizon Agentic Planning with Verifiable Constraints
January 26, 2026
papers.authors: Yinger Zhang, Shutong Jiang, Renhao Li, Jianhong Tu, Yang Su, Lianghao Deng, Xudong Guo, Chenxu Lv, Junyang Lin
cs.AI
papers.abstract
Alors que l'évaluation des agents s'oriente vers des tâches à long terme, la plupart des benchmarks privilégient encore un raisonnement local au niveau des étapes plutôt que l'optimisation contrainte globale (par exemple, les budgets temporels et financiers) qui exige une réelle capacité de planification. Parallèlement, les benchmarks existants de planification pour LLM sous-représentent la collecte active d'informations et les contraintes locales fines caractéristiques des environnements réels. Pour y remédier, nous présentons DeepPlanning, un benchmark exigeant pour la planification pratique d'agents sur le long terme. Il propose des tâches de planification de voyage sur plusieurs jours et d'achats multi-produits nécessitant une acquisition proactive d'informations, un raisonnement contraint local et une optimisation contrainte globale. Les évaluations sur DeepPlanning montrent que même les LLM agentiques les plus avancés peinent à résoudre ces problèmes, soulignant l'importance de modèles de raisonnement explicite fiables et d'une utilisation parallèle d'outils pour atteindre de meilleurs compromis efficacité-efficience. L'analyse des erreurs indique en outre des pistes prometteuses pour l'amélioration des LLM agentiques sur de longs horizons de planification. Nous ouvrons le code et les données en accès libre pour soutenir les recherches futures.
English
While agent evaluation has shifted toward long-horizon tasks, most benchmarks still emphasize local, step-level reasoning rather than the global constrained optimization (e.g., time and financial budgets) that demands genuine planning ability. Meanwhile, existing LLM planning benchmarks underrepresent the active information gathering and fine-grained local constraints typical of real-world settings. To address this, we introduce DeepPlanning, a challenging benchmark for practical long-horizon agent planning. It features multi-day travel planning and multi-product shopping tasks that require proactive information acquisition, local constrained reasoning, and global constrained optimization. Evaluations on DeepPlanning show that even frontier agentic LLMs struggle with these problems, highlighting the importance of reliable explicit reasoning patterns and parallel tool use for achieving better effectiveness-efficiency trade-offs. Error analysis further points to promising directions for improving agentic LLMs over long planning horizons. We open-source the code and data to support future research.