ChatPaper.aiChatPaper

TodoEvolve: Aprendendo a Projetar Sistemas de Planejamento para Agentes

TodoEvolve: Learning to Architect Agent Planning Systems

February 8, 2026
Autores: Jiaxi Liu, Yanzuo Jiang, Guibin Zhang, Zihan Zhang, Heng Chang, Zhenfei Yin, Qibing Ren, Junchi Yan
cs.AI

Resumo

O planeamento tornou-se uma capacidade central para os sistemas de agentes contemporâneos na navegação de tarefas complexas e de longo prazo. No entanto, as abordagens existentes dependem predominantemente de estruturas de planeamento fixas e artesanais que carecem da flexibilidade necessária para se adaptarem à diversidade estrutural de problemas abertos. Para superar esta limitação, introduzimos o TodoEvolve, um paradigma de metaplaneamento que sintetiza de forma autónoma e revê dinamicamente arquiteturas de planeamento específicas para cada tarefa. Especificamente, construímos primeiro a PlanFactory, um espaço de design modular que padroniza diversos paradigmas de planeamento dentro de uma base de código unificada, abrangendo topologia, inicialização, adaptação e navegação, fornecendo assim uma interface comum para padrões de planeamento heterogéneos. Aproveitando a PlanFactory, recolhemos trajetórias de planeamento de alta qualidade e treinamos o Todo-14B através da Otimização de Preferência Guiada por Impedância (IGPO), um objetivo de aprendizagem por reforço multiobjetivo que incentiva a geração de sistemas de planeamento que sejam performantes, estáveis e eficientes em termos de *tokens* em tarefas arbitrárias e *backbones* de agentes. Avaliações empíricas em cinco *benchmarks* de agentes demonstram que o TodoEvolve supera consistentemente módulos de planeamento cuidadosamente elaborados, mantendo custos de API económicos e sobrecarga de tempo de execução reduzida.
English
Planning has become a central capability for contemporary agent systems in navigating complex, long-horizon tasks, yet existing approaches predominantly rely on fixed, hand-crafted planning structures that lack the flexibility to adapt to the structural diversity of open-ended problems. To address this limitation, we introduce TodoEvolve, a meta-planning paradigm that autonomously synthesizes and dynamically revises task-specific planning architectures. Specifically, we first construct PlanFactory, a modular design space that standardizes diverse planning paradigms within a unified codebase encompassing topology, initialization, adaptation, and navigation, thereby providing a common interface for heterogeneous planning patterns. Leveraging PlanFactory, we collect high-quality planning trajectories and train Todo-14B via Impedance-Guided Preference Optimization (IGPO), a multi-objective reinforcement learning objective that encourages the generation of planning systems that are performant, stable, and token-efficient across arbitrary tasks and agent backbones. Empirical evaluations on five agentic benchmarks demonstrate that TodoEvolve consistently surpasses carefully engineered planning modules while maintaining economical API costs and runtime overhead.
PDF62March 19, 2026