ChatPaper.aiChatPaper

TodoEvolve : Apprendre à architecturer des systèmes de planification d'agents

TodoEvolve: Learning to Architect Agent Planning Systems

February 8, 2026
papers.authors: Jiaxi Liu, Yanzuo Jiang, Guibin Zhang, Zihan Zhang, Heng Chang, Zhenfei Yin, Qibing Ren, Junchi Yan
cs.AI

papers.abstract

La planification est devenue une capacité centrale pour les systèmes d'agents contemporains afin de naviguer dans des tâches complexes à long terme. Pourtant, les approches existantes reposent principalement sur des structures de planification fixes et artisanales qui manquent de flexibilité pour s'adapter à la diversité structurelle des problèmes ouverts. Pour remédier à cette limitation, nous présentons TodoEvolve, un paradigme de méta-planification qui synthétise de manière autonome et révise dynamiquement des architectures de planification spécifiques aux tâches. Plus précisément, nous construisons d'abord PlanFactory, un espace de conception modulaire qui standardise divers paradigmes de planification au sein d'une base de code unifiée englobant la topologie, l'initialisation, l'adaptation et la navigation, fournissant ainsi une interface commune pour des modèles de planification hétérogènes. En tirant parti de PlanFactory, nous collectons des trajectoires de planification de haute qualité et entraînons Todo-14B via l'Optimisation des Préférences par Impédance Guidée (IGPO), un objectif d'apprentissage par renforcement multi-objectifs qui encourage la génération de systèmes de planification performants, stables et économes en tokens pour des tâches et architectures d'agents arbitraires. Les évaluations empiriques sur cinq benchmarks agentiques démontrent que TodoEvolve surpasse constamment les modules de planification soigneusement conçus tout en maintenant des coûts d'API et une surcharge d'exécution économiques.
English
Planning has become a central capability for contemporary agent systems in navigating complex, long-horizon tasks, yet existing approaches predominantly rely on fixed, hand-crafted planning structures that lack the flexibility to adapt to the structural diversity of open-ended problems. To address this limitation, we introduce TodoEvolve, a meta-planning paradigm that autonomously synthesizes and dynamically revises task-specific planning architectures. Specifically, we first construct PlanFactory, a modular design space that standardizes diverse planning paradigms within a unified codebase encompassing topology, initialization, adaptation, and navigation, thereby providing a common interface for heterogeneous planning patterns. Leveraging PlanFactory, we collect high-quality planning trajectories and train Todo-14B via Impedance-Guided Preference Optimization (IGPO), a multi-objective reinforcement learning objective that encourages the generation of planning systems that are performant, stable, and token-efficient across arbitrary tasks and agent backbones. Empirical evaluations on five agentic benchmarks demonstrate that TodoEvolve consistently surpasses carefully engineered planning modules while maintaining economical API costs and runtime overhead.
PDF41February 12, 2026