ChatPaper.aiChatPaper

DeepPlanning: Тестирование долгосрочного агентного планирования с верифицируемыми ограничениями

DeepPlanning: Benchmarking Long-Horizon Agentic Planning with Verifiable Constraints

January 26, 2026
Авторы: Yinger Zhang, Shutong Jiang, Renhao Li, Jianhong Tu, Yang Su, Lianghao Deng, Xudong Guo, Chenxu Lv, Junyang Lin
cs.AI

Аннотация

Хотя оценка агентов сместилась в сторону задач с длительным горизонтом, большинство бенчмарков по-прежнему делают акцент на локальном, пошаговом рассуждении, а не на глобальной ограниченной оптимизации (например, временных и финансовых бюджетах), требующей подлинной способности к планированию. В то же время существующие бенчмарки для планирования с помощью БОП недостаточно отражают активный сбор информации и мелкогранулярные локальные ограничения, характерные для реальных условий. Для решения этой проблемы мы представляем DeepPlanning — сложный бенчмарк для практического долгосрочного планирования агентов. Он включает задачи планирования многодневных путешествий и многопродуктовых покупок, которые требуют проактивного получения информации, локального ограниченного рассуждения и глобальной ограниченной оптимизации. Оценки на DeepPlanning показывают, что даже передовые агентские БОП испытывают трудности с этими проблемами, что подчеркивает важность надежных явных моделей рассуждений и параллельного использования инструментов для достижения лучшего баланса между эффективностью и производительностью. Анализ ошибок также указывает на перспективные направления для улучшения агентских БОП в задачах длительного планирования. Мы открываем исходный код и данные для поддержки будущих исследований.
English
While agent evaluation has shifted toward long-horizon tasks, most benchmarks still emphasize local, step-level reasoning rather than the global constrained optimization (e.g., time and financial budgets) that demands genuine planning ability. Meanwhile, existing LLM planning benchmarks underrepresent the active information gathering and fine-grained local constraints typical of real-world settings. To address this, we introduce DeepPlanning, a challenging benchmark for practical long-horizon agent planning. It features multi-day travel planning and multi-product shopping tasks that require proactive information acquisition, local constrained reasoning, and global constrained optimization. Evaluations on DeepPlanning show that even frontier agentic LLMs struggle with these problems, highlighting the importance of reliable explicit reasoning patterns and parallel tool use for achieving better effectiveness-efficiency trade-offs. Error analysis further points to promising directions for improving agentic LLMs over long planning horizons. We open-source the code and data to support future research.
PDF101January 28, 2026