ChatPaper.aiChatPaper

TodoEvolve: Обучение проектированию систем планирования агентов

TodoEvolve: Learning to Architect Agent Planning Systems

February 8, 2026
Авторы: Jiaxi Liu, Yanzuo Jiang, Guibin Zhang, Zihan Zhang, Heng Chang, Zhenfei Yin, Qibing Ren, Junchi Yan
cs.AI

Аннотация

Планирование стало ключевой способностью современных агентных систем для решения сложных задач с длительным горизонтом, однако существующие подходы в основном опираются на фиксированные, созданные вручную структуры планирования, которые не обладают гибкостью для адаптации к структурному разнообразию открытых проблем. Для преодоления этого ограничения мы представляем TodoEvolve — мета-парадигму планирования, которая автономно синтезирует и динамически пересматривает архитектуры планирования, специфичные для конкретных задач. В частности, мы сначала создаем PlanFactory, модульное пространство проектирования, которое стандартизирует разнообразные парадигмы планирования в рамках единой кодовой базы, включающей топологию, инициализацию, адаптацию и навигацию, обеспечивая тем самым общий интерфейс для гетерогенных паттернов планирования. Используя PlanFactory, мы собираем высококачественные траектории планирования и обучаем Todo-14B с помощью Оптимизации Предпочтений по Импедансу (IGPO) — многокритериальной цели обучения с подкреплением, которая стимулирует генерацию планирующих систем, демонстрирующих высокую производительность, стабильность и эффективность по токенам для произвольных задач и агентных бэкбонов. Эмпирические оценки на пяти агентных бенчмарках показывают, что TodoEvolve последовательно превосходит тщательно спроектированные модули планирования, сохраняя при этом экономичные затраты на API-вызовы и вычислительную нагрузку.
English
Planning has become a central capability for contemporary agent systems in navigating complex, long-horizon tasks, yet existing approaches predominantly rely on fixed, hand-crafted planning structures that lack the flexibility to adapt to the structural diversity of open-ended problems. To address this limitation, we introduce TodoEvolve, a meta-planning paradigm that autonomously synthesizes and dynamically revises task-specific planning architectures. Specifically, we first construct PlanFactory, a modular design space that standardizes diverse planning paradigms within a unified codebase encompassing topology, initialization, adaptation, and navigation, thereby providing a common interface for heterogeneous planning patterns. Leveraging PlanFactory, we collect high-quality planning trajectories and train Todo-14B via Impedance-Guided Preference Optimization (IGPO), a multi-objective reinforcement learning objective that encourages the generation of planning systems that are performant, stable, and token-efficient across arbitrary tasks and agent backbones. Empirical evaluations on five agentic benchmarks demonstrate that TodoEvolve consistently surpasses carefully engineered planning modules while maintaining economical API costs and runtime overhead.
PDF41February 12, 2026