DeepPlanning: Benchmarken van Langetermijnplanning door Agenten met Verifieerbare Beperkingen

Samenvatting

Hoewel de evaluatie van agents is verschoven naar langetermijntaken, leggen de meeste benchmarks nog steeds de nadruk op lokaal, stap-voor-stap redeneren in plaats van op globale, beperkte optimalisatie (zoals tijd- en budgetbeperkingen) die echt planningsvermogen vereist. Tegelijkertijd zijn in bestaande LLM-planningsbenchmarks de actieve informatievergaring en fijnmazige lokale beperkingen die kenmerkend zijn voor realistische situaties ondervertegenwoordigd. Om dit aan te pakken, introduceren we DeepPlanning, een uitdagende benchmark voor praktische langetermijnplanning van agents. Deze omvat meerdaagse reisplanning en multi-product aankooptaken die proactieve informatieverwerving, lokaal beperkt redeneren en globale beperkte optimalisatie vereisen. Evaluaties met DeepPlanning tonen aan dat zelfs de meest geavanceerde agentische LLM's moeite hebben met deze problemen, wat het belang benadrukt van betrouwbare expliciete redeneerpatronen en parallel toolgebruik voor een betere effectiviteit-efficiëntie balans. Foutenanalyse wijst verder op veelbelovende richtingen voor het verbeteren van agentische LLM's over lange planningshorizons. We maken de code en data open source om toekomstig onderzoek te ondersteunen.

English

While agent evaluation has shifted toward long-horizon tasks, most benchmarks still emphasize local, step-level reasoning rather than the global constrained optimization (e.g., time and financial budgets) that demands genuine planning ability. Meanwhile, existing LLM planning benchmarks underrepresent the active information gathering and fine-grained local constraints typical of real-world settings. To address this, we introduce DeepPlanning, a challenging benchmark for practical long-horizon agent planning. It features multi-day travel planning and multi-product shopping tasks that require proactive information acquisition, local constrained reasoning, and global constrained optimization. Evaluations on DeepPlanning show that even frontier agentic LLMs struggle with these problems, highlighting the importance of reliable explicit reasoning patterns and parallel tool use for achieving better effectiveness-efficiency trade-offs. Error analysis further points to promising directions for improving agentic LLMs over long planning horizons. We open-source the code and data to support future research.

DeepPlanning: Benchmarken van Langetermijnplanning door Agenten met Verifieerbare Beperkingen

DeepPlanning: Benchmarking Long-Horizon Agentic Planning with Verifiable Constraints

Samenvatting

Support