ChatPaper.aiChatPaper

DeepPlanning: Benchmarking langfristiger agentenbasierter Planung mit verifizierbaren Einschränkungen

DeepPlanning: Benchmarking Long-Horizon Agentic Planning with Verifiable Constraints

January 26, 2026
papers.authors: Yinger Zhang, Shutong Jiang, Renhao Li, Jianhong Tu, Yang Su, Lianghao Deng, Xudong Guo, Chenxu Lv, Junyang Lin
cs.AI

papers.abstract

Während sich die Agentenbewertung zunehmend auf langfristige Aufgaben verlagert hat, konzentrieren sich die meisten Benchmarks nach wie vor auf lokales, schrittweises Schließen und nicht auf die globale, restriktionsbasierte Optimierung (z.B. unter Zeit- und Finanzbudgets), die echte Planungsfähigkeiten erfordert. Gleichzeitig bilden bestehende LLM-Planungsbenchmarks die aktive Informationsbeschaffung und feinkörnigen lokalen Einschränkungen, die für reale Szenarien typisch sind, nur unzureichend ab. Um dies zu adressieren, führen wir DeepPlanning ein, einen anspruchsvollen Benchmark für praktische, langfristige Agentenplanung. Dieser umfasst mehr-tägige Reiseplanung und Multi-Produkt-Einkaufsaufgaben, die proaktive Informationsbeschaffung, lokales restriktionsbasiertes Schließen und globale restriktionsbasierte Optimierung erfordern. Evaluationen auf DeepPlanning zeigen, dass selbst führende agentenbasierte LLMs mit diesen Problemen kämpfen, was die Bedeutung zuverlässiger expliziter Reasoning-Muster und paralleler Werkzeugnutzung für bessere Effektivitäts-Effizienz-Kompromisse unterstreicht. Eine Fehleranalyse weist zudem auf vielversprechende Richtungen zur Verbesserung agentenbasierter LLMs über lange Planungshorizonte hin. Wir veröffentlichen den Code und die Daten Open Source, um zukünftige Forschung zu unterstützen.
English
While agent evaluation has shifted toward long-horizon tasks, most benchmarks still emphasize local, step-level reasoning rather than the global constrained optimization (e.g., time and financial budgets) that demands genuine planning ability. Meanwhile, existing LLM planning benchmarks underrepresent the active information gathering and fine-grained local constraints typical of real-world settings. To address this, we introduce DeepPlanning, a challenging benchmark for practical long-horizon agent planning. It features multi-day travel planning and multi-product shopping tasks that require proactive information acquisition, local constrained reasoning, and global constrained optimization. Evaluations on DeepPlanning show that even frontier agentic LLMs struggle with these problems, highlighting the importance of reliable explicit reasoning patterns and parallel tool use for achieving better effectiveness-efficiency trade-offs. Error analysis further points to promising directions for improving agentic LLMs over long planning horizons. We open-source the code and data to support future research.
PDF101January 28, 2026