DeepPlanning: 검증 가능한 제약 조건을 갖춘 장기 계획 에이전트 성능 평가
DeepPlanning: Benchmarking Long-Horizon Agentic Planning with Verifiable Constraints
January 26, 2026
저자: Yinger Zhang, Shutong Jiang, Renhao Li, Jianhong Tu, Yang Su, Lianghao Deng, Xudong Guo, Chenxu Lv, Junyang Lin
cs.AI
초록
에이전트 평가가 장기적 과제로 전환되고 있음에도 불구하고, 대부분의 벤치마크는 여전히 진정한 계획 능력을 요구하는 전역적 제약 최적화(예: 시간 및 재정 예산)보다는 지역적, 단계별 추론을 강조하고 있습니다. 한편 기존 LLM 계획 벤치마크는 실제 환경에서 일반적으로 나타나는 능동적 정보 수집과 세분화된 지역적 제약 조건을 충분히 반영하지 못하고 있습니다. 이를 해결하기 위해 우리는 실용적인 장기적 에이전트 계획을 위한 도전적인 벤치마크인 DeepPlanning을 소개합니다. DeepPlanning은 능동적 정보 획득, 지역적 제약 추론, 전역적 제약 최적화가 필요한 며칠 간의 여행 계획 및 다중 상품 구매 과제를 특징으로 합니다. DeepPlanning에 대한 평가 결과, 최첨단 에이전트 LLM조차도 이러한 문제에 어려움을 겪는 것으로 나타나며, 이는 더 나은 효과성-효율성 균형을 달성하기 위해 신뢰할 수 있는 명시적 추론 패턴과 병렬 도구 사용의 중요성을 강조합니다. 오류 분석은 또한 장기 계획 범위에서 에이전트 LLM을 개선하기 위한 유망한 방향을 제시합니다. 향후 연구를 지원하기 위해 코드와 데이터를 오픈소스로 공개합니다.
English
While agent evaluation has shifted toward long-horizon tasks, most benchmarks still emphasize local, step-level reasoning rather than the global constrained optimization (e.g., time and financial budgets) that demands genuine planning ability. Meanwhile, existing LLM planning benchmarks underrepresent the active information gathering and fine-grained local constraints typical of real-world settings. To address this, we introduce DeepPlanning, a challenging benchmark for practical long-horizon agent planning. It features multi-day travel planning and multi-product shopping tasks that require proactive information acquisition, local constrained reasoning, and global constrained optimization. Evaluations on DeepPlanning show that even frontier agentic LLMs struggle with these problems, highlighting the importance of reliable explicit reasoning patterns and parallel tool use for achieving better effectiveness-efficiency trade-offs. Error analysis further points to promising directions for improving agentic LLMs over long planning horizons. We open-source the code and data to support future research.