DeepPlanning: Valutazione della Pianificazione Agente a Lungo Orizzonte con Vincoli Verificabili

Abstract

Sebbene la valutazione degli agenti si sia spostata verso compiti a lungo termine, la maggior parte dei benchmark continua a enfatizzare un ragionamento locale e a livello di step, piuttosto che l'ottimizzazione vincolata globale (ad esempio, budget di tempo e denaro) che richiede una genuina capacità di pianificazione. Nel frattempo, gli attuali benchmark di pianificazione per LLM rappresentano in modo insufficiente la raccolta attiva di informazioni e i vincoli locali granulari tipici degli scenari del mondo reale. Per affrontare questa lacuna, introduciamo DeepPlanning, un benchmark impegnativo per la pianificazione pratica di agenti a lungo termine. Esso include attività di pianificazione di viaggi di più giorni e di acquisto di più prodotti che richiedono acquisizione proattiva di informazioni, ragionamento vincolato locale e ottimizzazione vincolata globale. Le valutazioni su DeepPlanning mostrano che persino i migliori LLM agentistici hanno difficoltà con questi problemi, evidenziando l'importanza di modelli di ragionamento esplicito affidabili e dell'uso parallelo di strumenti per raggiungere migliori compromessi tra efficacia ed efficienza. L'analisi degli errori indica inoltre direzioni promettenti per il miglioramento degli LLM agentistici su orizzonti di pianificazione lunghi. Rendiamo open-source il codice e i dati per supportare la ricerca futura.

English

While agent evaluation has shifted toward long-horizon tasks, most benchmarks still emphasize local, step-level reasoning rather than the global constrained optimization (e.g., time and financial budgets) that demands genuine planning ability. Meanwhile, existing LLM planning benchmarks underrepresent the active information gathering and fine-grained local constraints typical of real-world settings. To address this, we introduce DeepPlanning, a challenging benchmark for practical long-horizon agent planning. It features multi-day travel planning and multi-product shopping tasks that require proactive information acquisition, local constrained reasoning, and global constrained optimization. Evaluations on DeepPlanning show that even frontier agentic LLMs struggle with these problems, highlighting the importance of reliable explicit reasoning patterns and parallel tool use for achieving better effectiveness-efficiency trade-offs. Error analysis further points to promising directions for improving agentic LLMs over long planning horizons. We open-source the code and data to support future research.

DeepPlanning: Valutazione della Pianificazione Agente a Lungo Orizzonte con Vincoli Verificabili

DeepPlanning: Benchmarking Long-Horizon Agentic Planning with Verifiable Constraints

Abstract

Support