TodoEvolve: Imparare a Progettare Sistemi di Pianificazione per Agenti

Abstract

La pianificazione è diventata una capacità centrale per i sistemi agenti contemporanei nel gestire compiti complessi e a lungo termine, tuttavia gli approcci esistenti si basano prevalentemente su strutture di pianificazione fisse e predeterminate, che mancano della flessibilità necessaria per adattarsi alla diversità strutturale dei problemi aperti. Per affrontare questa limitazione, introduciamo TodoEvolve, un paradigma di meta-pianificazione che sintetizza autonomamente e revisiona dinamicamente architetture di pianificazione specifiche per il compito. Nello specifico, costruiamo inizialmente PlanFactory, uno spazio di progettazione modulare che standardizza paradigmi di pianificazione diversi all'interno di una codebase unificata che comprende topologia, inizializzazione, adattamento e navigazione, fornendo così un'interfaccia comune per pattern di pianificazione eterogenei. Sfruttando PlanFactory, raccogliamo traiettorie di pianificazione di alta qualità e addestriamo Todo-14B tramite l'Optimizzazione delle Preferenze Guidata dall'Impedenza (IGPO), un obiettivo di apprendimento per rinforzo multi-obiettivo che incentiva la generazione di sistemi di pianificazione performanti, stabili ed efficienti in termini di token per compiti e backbone di agenti arbitrari. Le valutazioni empiriche su cinque benchmark agentici dimostrano che TodoEvolve supera costantemente moduli di pianificazione ingegnerizzati con cura, mantenendo al contempo costi API e overhead di runtime contenuti.

English

Planning has become a central capability for contemporary agent systems in navigating complex, long-horizon tasks, yet existing approaches predominantly rely on fixed, hand-crafted planning structures that lack the flexibility to adapt to the structural diversity of open-ended problems. To address this limitation, we introduce TodoEvolve, a meta-planning paradigm that autonomously synthesizes and dynamically revises task-specific planning architectures. Specifically, we first construct PlanFactory, a modular design space that standardizes diverse planning paradigms within a unified codebase encompassing topology, initialization, adaptation, and navigation, thereby providing a common interface for heterogeneous planning patterns. Leveraging PlanFactory, we collect high-quality planning trajectories and train Todo-14B via Impedance-Guided Preference Optimization (IGPO), a multi-objective reinforcement learning objective that encourages the generation of planning systems that are performant, stable, and token-efficient across arbitrary tasks and agent backbones. Empirical evaluations on five agentic benchmarks demonstrate that TodoEvolve consistently surpasses carefully engineered planning modules while maintaining economical API costs and runtime overhead.

TodoEvolve: Imparare a Progettare Sistemi di Pianificazione per Agenti

TodoEvolve: Learning to Architect Agent Planning Systems

Abstract

Support