ChatPaper.aiChatPaper

TodoEvolve: Aprendiendo a Diseñar Arquitecturas para Sistemas de Planificación de Agentes

TodoEvolve: Learning to Architect Agent Planning Systems

February 8, 2026
Autores: Jiaxi Liu, Yanzuo Jiang, Guibin Zhang, Zihan Zhang, Heng Chang, Zhenfei Yin, Qibing Ren, Junchi Yan
cs.AI

Resumen

La planificación se ha convertido una capacidad central para los sistemas de agentes contemporáneos en la navegación de tareas complejas de horizonte largo; sin embargo, los enfoques existentes dependen predominantemente de estructuras de planificación fijas y diseñadas a mano que carecen de la flexibilidad para adaptarse a la diversidad estructural de problemas abiertos. Para abordar esta limitación, presentamos TodoEvolve, un paradigma de meta-planificación que sintetiza de forma autónoma y revisa dinámicamente arquitecturas de planificación específicas para cada tarea. Específicamente, primero construimos PlanFactory, un espacio de diseño modular que estandariza diversos paradigmas de planificación dentro de una base de código unificada que abarca topología, inicialización, adaptación y navegación, proporcionando así una interfaz común para patrones de planificación heterogéneos. Aprovechando PlanFactory, recopilamos trayectorias de planificación de alta calidad y entrenamos Todo-14B mediante Optimización de Preferencias Guiada por Impedancia (IGPO), un objetivo de aprendizaje por refuerzo multi-objetivo que fomenta la generación de sistemas de planificación que son eficaces, estables y eficientes en tokens para tareas arbitrarias y *backbones* de agentes. Las evaluaciones empíricas en cinco benchmarks de agentes demuestran que TodoEvolve supera consistentemente a módulos de planificación cuidadosamente diseñados, manteniendo al mismo tiempo costes de API y sobrecarga de tiempo de ejecución económicos.
English
Planning has become a central capability for contemporary agent systems in navigating complex, long-horizon tasks, yet existing approaches predominantly rely on fixed, hand-crafted planning structures that lack the flexibility to adapt to the structural diversity of open-ended problems. To address this limitation, we introduce TodoEvolve, a meta-planning paradigm that autonomously synthesizes and dynamically revises task-specific planning architectures. Specifically, we first construct PlanFactory, a modular design space that standardizes diverse planning paradigms within a unified codebase encompassing topology, initialization, adaptation, and navigation, thereby providing a common interface for heterogeneous planning patterns. Leveraging PlanFactory, we collect high-quality planning trajectories and train Todo-14B via Impedance-Guided Preference Optimization (IGPO), a multi-objective reinforcement learning objective that encourages the generation of planning systems that are performant, stable, and token-efficient across arbitrary tasks and agent backbones. Empirical evaluations on five agentic benchmarks demonstrate that TodoEvolve consistently surpasses carefully engineered planning modules while maintaining economical API costs and runtime overhead.
PDF41February 12, 2026