TodoEvolve: Lernen, Agentenplanungssysteme zu architektonisieren
TodoEvolve: Learning to Architect Agent Planning Systems
February 8, 2026
papers.authors: Jiaxi Liu, Yanzuo Jiang, Guibin Zhang, Zihan Zhang, Heng Chang, Zhenfei Yin, Qibing Ren, Junchi Yan
cs.AI
papers.abstract
Planung ist zu einer zentralen Fähigkeit moderner Agentensysteme für die Bewältigung komplexer, langfristiger Aufgaben geworden. Dennoch stützen sich bestehende Ansätze überwiegend auf feste, handgefertigte Planungsstrukturen, denen die Flexibilität fehlt, um sich der strukturellen Vielfalt offener Probleme anzupassen. Um diese Einschränkung zu überwinden, führen wir TodoEvolve ein, ein Meta-Planungsparadigma, das autonom aufgabenspezifische Planungsarchitekturen synthetisiert und dynamisch überarbeitet. Konkret konstruieren wir zunächst PlanFactory, einen modularen Designraum, der verschiedene Planungsparadigmen innerhalb einer einheitlichen Codebasis standardisiert, die Topologie, Initialisierung, Anpassung und Navigation umfasst. Dadurch wird eine gemeinsame Schnittstelle für heterogene Planungsmuster bereitgestellt. Unter Nutzung von PlanFactory sammeln wir hochwertige Planungstrajektorien und trainieren Todo-14B mittels Impedance-Guided Preference Optimization (IGPO), einem multiobjektiven Reinforcement-Learning-Ziel, das die Generierung von Planungssystemen fördert, die leistungsstark, stabil und token-effizient über beliebige Aufgaben und Agenten-Backbones hinweg sind. Empirische Auswertungen auf fünf Agenten-Benchmarks zeigen, dass TodoEvolve konsistent sorgfältig entwickelte Planungsmodule übertrifft und dabei wirtschaftliche API-Kosten und Laufzeit-Overheads beibehält.
English
Planning has become a central capability for contemporary agent systems in navigating complex, long-horizon tasks, yet existing approaches predominantly rely on fixed, hand-crafted planning structures that lack the flexibility to adapt to the structural diversity of open-ended problems. To address this limitation, we introduce TodoEvolve, a meta-planning paradigm that autonomously synthesizes and dynamically revises task-specific planning architectures. Specifically, we first construct PlanFactory, a modular design space that standardizes diverse planning paradigms within a unified codebase encompassing topology, initialization, adaptation, and navigation, thereby providing a common interface for heterogeneous planning patterns. Leveraging PlanFactory, we collect high-quality planning trajectories and train Todo-14B via Impedance-Guided Preference Optimization (IGPO), a multi-objective reinforcement learning objective that encourages the generation of planning systems that are performant, stable, and token-efficient across arbitrary tasks and agent backbones. Empirical evaluations on five agentic benchmarks demonstrate that TodoEvolve consistently surpasses carefully engineered planning modules while maintaining economical API costs and runtime overhead.