TodoEvolve: Aprendendo a Projetar Sistemas de Planejamento para Agentes

Resumo

O planeamento tornou-se uma capacidade central para os sistemas de agentes contemporâneos na navegação de tarefas complexas e de longo prazo. No entanto, as abordagens existentes dependem predominantemente de estruturas de planeamento fixas e artesanais que carecem da flexibilidade necessária para se adaptarem à diversidade estrutural de problemas abertos. Para superar esta limitação, introduzimos o TodoEvolve, um paradigma de metaplaneamento que sintetiza de forma autónoma e revê dinamicamente arquiteturas de planeamento específicas para cada tarefa. Especificamente, construímos primeiro a PlanFactory, um espaço de design modular que padroniza diversos paradigmas de planeamento dentro de uma base de código unificada, abrangendo topologia, inicialização, adaptação e navegação, fornecendo assim uma interface comum para padrões de planeamento heterogéneos. Aproveitando a PlanFactory, recolhemos trajetórias de planeamento de alta qualidade e treinamos o Todo-14B através da Otimização de Preferência Guiada por Impedância (IGPO), um objetivo de aprendizagem por reforço multiobjetivo que incentiva a geração de sistemas de planeamento que sejam performantes, estáveis e eficientes em termos de *tokens* em tarefas arbitrárias e *backbones* de agentes. Avaliações empíricas em cinco *benchmarks* de agentes demonstram que o TodoEvolve supera consistentemente módulos de planeamento cuidadosamente elaborados, mantendo custos de API económicos e sobrecarga de tempo de execução reduzida.

English

Planning has become a central capability for contemporary agent systems in navigating complex, long-horizon tasks, yet existing approaches predominantly rely on fixed, hand-crafted planning structures that lack the flexibility to adapt to the structural diversity of open-ended problems. To address this limitation, we introduce TodoEvolve, a meta-planning paradigm that autonomously synthesizes and dynamically revises task-specific planning architectures. Specifically, we first construct PlanFactory, a modular design space that standardizes diverse planning paradigms within a unified codebase encompassing topology, initialization, adaptation, and navigation, thereby providing a common interface for heterogeneous planning patterns. Leveraging PlanFactory, we collect high-quality planning trajectories and train Todo-14B via Impedance-Guided Preference Optimization (IGPO), a multi-objective reinforcement learning objective that encourages the generation of planning systems that are performant, stable, and token-efficient across arbitrary tasks and agent backbones. Empirical evaluations on five agentic benchmarks demonstrate that TodoEvolve consistently surpasses carefully engineered planning modules while maintaining economical API costs and runtime overhead.