DeepPlanning: Avaliação do Planejamento de Agentes de Longo Horizonte com Restrições Verificáveis

Resumo

Embora a avaliação de agentes tenha migrado para tarefas de longo horizonte, a maioria dos benchmarks ainda enfatiza o raciocínio local, ao nível da etapa, em vez da otimização global com restrições (por exemplo, orçamentos de tempo e financeiros) que exige genuína capacidade de planeamento. Paralelamente, os benchmarks existentes para planeamento com LLMs sub-representam a recolha ativa de informação e as restrições locais de granularidade fina típicas de ambientes do mundo real. Para resolver esta lacuna, introduzimos o DeepPlanning, um benchmark desafiante para o planeamento prático de agentes de longo horizonte. Este apresenta tarefas de planeamento de viagens multi-dia e de compras multi-produto que exigem aquisição proativa de informação, raciocínio local com restrições e otimização global com restrições. As avaliações no DeepPlanning mostram que mesmo os LLMs agenticos mais avançados têm dificuldades com estes problemas, destacando a importância de padrões de raciocínio explícito confiáveis e do uso paralelo de ferramentas para alcançar melhores compromissos entre eficácia e eficiência. A análise de erros aponta ainda para direções promissoras para a melhoria de LLMs agenticos em horizontes de planeamento longos. Disponibilizamos publicamente o código e os dados para apoiar investigação futura.

English

While agent evaluation has shifted toward long-horizon tasks, most benchmarks still emphasize local, step-level reasoning rather than the global constrained optimization (e.g., time and financial budgets) that demands genuine planning ability. Meanwhile, existing LLM planning benchmarks underrepresent the active information gathering and fine-grained local constraints typical of real-world settings. To address this, we introduce DeepPlanning, a challenging benchmark for practical long-horizon agent planning. It features multi-day travel planning and multi-product shopping tasks that require proactive information acquisition, local constrained reasoning, and global constrained optimization. Evaluations on DeepPlanning show that even frontier agentic LLMs struggle with these problems, highlighting the importance of reliable explicit reasoning patterns and parallel tool use for achieving better effectiveness-efficiency trade-offs. Error analysis further points to promising directions for improving agentic LLMs over long planning horizons. We open-source the code and data to support future research.