TodoEvolve: エージェント計画システムのアーキテクチャ設計を学習する
TodoEvolve: Learning to Architect Agent Planning Systems
February 8, 2026
著者: Jiaxi Liu, Yanzuo Jiang, Guibin Zhang, Zihan Zhang, Heng Chang, Zhenfei Yin, Qibing Ren, Junchi Yan
cs.AI
要旨
計画機能は、複雑で長期的なタスクを遂行する現代のエージェントシステムの中核的能力となっている。しかし、既存のアプローチは主に、固定化され手作りされた計画構造に依存しており、オープンエンドな問題の構造的多様性に適応する柔軟性を欠いている。この課題を解決するため、我々はタスク固有の計画アーキテクチャを自律的に合成し、動的に修正するメタ計画パラダイム「TodoEvolve」を提案する。具体的にはまず、トポロジー、初期化、適応、ナビゲーションを統一的コードベース内で標準化するモジュラー設計空間「PlanFactory」を構築し、異種混合の計画パターンに対する共通インターフェースを提供する。PlanFactoryを活用して高品質な計画軌跡を収集し、Impedance-Guided Preference Optimization (IGPO) を介してTodo-14Bを訓練する。IGPOは、任意のタスクとエージェント基盤において、高性能、安定性、トークン効率に優れた計画システムの生成を促進する多目的強化学習目標である。5つのエージェントベンチマークによる実証評価において、TodoEvolveは慎重に設計された計画モジュールを一貫して凌駕しつつ、経済的なAPIコストと実行時オーバーヘッドを維持することを実証した。
English
Planning has become a central capability for contemporary agent systems in navigating complex, long-horizon tasks, yet existing approaches predominantly rely on fixed, hand-crafted planning structures that lack the flexibility to adapt to the structural diversity of open-ended problems. To address this limitation, we introduce TodoEvolve, a meta-planning paradigm that autonomously synthesizes and dynamically revises task-specific planning architectures. Specifically, we first construct PlanFactory, a modular design space that standardizes diverse planning paradigms within a unified codebase encompassing topology, initialization, adaptation, and navigation, thereby providing a common interface for heterogeneous planning patterns. Leveraging PlanFactory, we collect high-quality planning trajectories and train Todo-14B via Impedance-Guided Preference Optimization (IGPO), a multi-objective reinforcement learning objective that encourages the generation of planning systems that are performant, stable, and token-efficient across arbitrary tasks and agent backbones. Empirical evaluations on five agentic benchmarks demonstrate that TodoEvolve consistently surpasses carefully engineered planning modules while maintaining economical API costs and runtime overhead.