TodoEvolve: Обучение проектированию систем планирования агентов
TodoEvolve: Learning to Architect Agent Planning Systems
February 8, 2026
Авторы: Jiaxi Liu, Yanzuo Jiang, Guibin Zhang, Zihan Zhang, Heng Chang, Zhenfei Yin, Qibing Ren, Junchi Yan
cs.AI
Аннотация
Планирование стало ключевой способностью современных агентных систем для решения сложных задач с длительным горизонтом, однако существующие подходы в основном опираются на фиксированные, созданные вручную структуры планирования, которые не обладают гибкостью для адаптации к структурному разнообразию открытых проблем. Для преодоления этого ограничения мы представляем TodoEvolve — мета-парадигму планирования, которая автономно синтезирует и динамически пересматривает архитектуры планирования, специфичные для конкретных задач. В частности, мы сначала создаем PlanFactory, модульное пространство проектирования, которое стандартизирует разнообразные парадигмы планирования в рамках единой кодовой базы, включающей топологию, инициализацию, адаптацию и навигацию, обеспечивая тем самым общий интерфейс для гетерогенных паттернов планирования. Используя PlanFactory, мы собираем высококачественные траектории планирования и обучаем Todo-14B с помощью Оптимизации Предпочтений по Импедансу (IGPO) — многокритериальной цели обучения с подкреплением, которая стимулирует генерацию планирующих систем, демонстрирующих высокую производительность, стабильность и эффективность по токенам для произвольных задач и агентных бэкбонов. Эмпирические оценки на пяти агентных бенчмарках показывают, что TodoEvolve последовательно превосходит тщательно спроектированные модули планирования, сохраняя при этом экономичные затраты на API-вызовы и вычислительную нагрузку.
English
Planning has become a central capability for contemporary agent systems in navigating complex, long-horizon tasks, yet existing approaches predominantly rely on fixed, hand-crafted planning structures that lack the flexibility to adapt to the structural diversity of open-ended problems. To address this limitation, we introduce TodoEvolve, a meta-planning paradigm that autonomously synthesizes and dynamically revises task-specific planning architectures. Specifically, we first construct PlanFactory, a modular design space that standardizes diverse planning paradigms within a unified codebase encompassing topology, initialization, adaptation, and navigation, thereby providing a common interface for heterogeneous planning patterns. Leveraging PlanFactory, we collect high-quality planning trajectories and train Todo-14B via Impedance-Guided Preference Optimization (IGPO), a multi-objective reinforcement learning objective that encourages the generation of planning systems that are performant, stable, and token-efficient across arbitrary tasks and agent backbones. Empirical evaluations on five agentic benchmarks demonstrate that TodoEvolve consistently surpasses carefully engineered planning modules while maintaining economical API costs and runtime overhead.