ChatPaper.aiChatPaper

DeepPlanning: 検証可能な制約条件を用いた長期的エージェント計画のベンチマーキング

DeepPlanning: Benchmarking Long-Horizon Agentic Planning with Verifiable Constraints

January 26, 2026
著者: Yinger Zhang, Shutong Jiang, Renhao Li, Jianhong Tu, Yang Su, Lianghao Deng, Xudong Guo, Chenxu Lv, Junyang Lin
cs.AI

要旨

エージェント評価は長期的タスクへと移行しつつあるが、既存のベンチマークの多くは、真の計画能力を要する大域的制約付き最適化(時間や予算など)よりも、局所的なステップ単位の推論を重視している。一方、現行のLLM計画ベンチマークは、実世界で典型的な能動的情報収集や細粒度の局所的制約を十分に反映していない。この問題に対処するため、実用的な長期的エージェント計画のための挑戦的ベンチマーク「DeepPlanning」を提案する。本ベンチマークは、複数日にわたる旅行計画と複数商品の購入タスクを特徴とし、能動的情報取得、局所的制約付き推論、大域的制約付き最適化を必要とする。DeepPlanningによる評価では、最先端のエージェント機能を持つLLMでさえこれらの問題に苦戦することが明らかとなり、効果と効率の適切なトレードオフを達成するには、信頼性の高い明示的推論パターンと並列的なツール使用が重要であることが示された。誤り分析からは、長期的計画におけるエージェント機能LLMの改善に向けた有望な方向性が示されている。将来の研究発展を支援するため、コードとデータを公開する。
English
While agent evaluation has shifted toward long-horizon tasks, most benchmarks still emphasize local, step-level reasoning rather than the global constrained optimization (e.g., time and financial budgets) that demands genuine planning ability. Meanwhile, existing LLM planning benchmarks underrepresent the active information gathering and fine-grained local constraints typical of real-world settings. To address this, we introduce DeepPlanning, a challenging benchmark for practical long-horizon agent planning. It features multi-day travel planning and multi-product shopping tasks that require proactive information acquisition, local constrained reasoning, and global constrained optimization. Evaluations on DeepPlanning show that even frontier agentic LLMs struggle with these problems, highlighting the importance of reliable explicit reasoning patterns and parallel tool use for achieving better effectiveness-efficiency trade-offs. Error analysis further points to promising directions for improving agentic LLMs over long planning horizons. We open-source the code and data to support future research.
PDF101January 28, 2026