TodoEvolve: Leren om Agentplanningssystemen te Archiveren

Samenvatting

Planning is uitgegroeid tot een centrale capaciteit voor hedendaagse agentsystemen bij het navigeren door complexe taken met een lange horizon. Toch baseren bestaande benaderingen zich voornamelijk op vaste, handmatig gemaakte planningstructuren die de flexibiliteit missen om zich aan te passen aan de structurele diversiteit van open-einde problemen. Om deze beperking aan te pakken, introduceren wij TodoEvolve, een meta-planningparadigma dat autonoom taakspecifieke planningarchitecturen synthetiseert en dynamisch reviseert. Concreet construeren wij eerst PlanFactory, een modulaire ontwerpruimte die diverse planningparadigma's standaardiseert binnen een uniforme codebase die topologie, initialisatie, adaptatie en navigatie omvat, waardoor een gemeenschappelijke interface voor heterogene planningpatronen wordt geboden. Gebruikmakend van PlanFactory, verzamelen wij hoogwaardige planningtrajecten en trainen Todo-14B via Impedance-Guided Preference Optimization (IGPO), een multi-objectief reinforcement learning-doel dat de generatie aanmoedigt van planningssystemen die presterend, stabiel en token-efficiënt zijn voor willekeurige taken en agent-backbones. Empirische evaluaties op vijf agent-gebaseerde benchmarks tonen aan dat TodoEvolve consistent zorgvuldig ontworpen planningmodules overtreft, terwijl het economische API-kosten en runtime-overhead behoudt.

English

Planning has become a central capability for contemporary agent systems in navigating complex, long-horizon tasks, yet existing approaches predominantly rely on fixed, hand-crafted planning structures that lack the flexibility to adapt to the structural diversity of open-ended problems. To address this limitation, we introduce TodoEvolve, a meta-planning paradigm that autonomously synthesizes and dynamically revises task-specific planning architectures. Specifically, we first construct PlanFactory, a modular design space that standardizes diverse planning paradigms within a unified codebase encompassing topology, initialization, adaptation, and navigation, thereby providing a common interface for heterogeneous planning patterns. Leveraging PlanFactory, we collect high-quality planning trajectories and train Todo-14B via Impedance-Guided Preference Optimization (IGPO), a multi-objective reinforcement learning objective that encourages the generation of planning systems that are performant, stable, and token-efficient across arbitrary tasks and agent backbones. Empirical evaluations on five agentic benchmarks demonstrate that TodoEvolve consistently surpasses carefully engineered planning modules while maintaining economical API costs and runtime overhead.

TodoEvolve: Leren om Agentplanningssystemen te Archiveren

TodoEvolve: Learning to Architect Agent Planning Systems

Samenvatting

Support