ChatPaper.aiChatPaper

TodoEvolve: 에이전트 계획 시스템 아키텍처 학습

TodoEvolve: Learning to Architect Agent Planning Systems

February 8, 2026
저자: Jiaxi Liu, Yanzuo Jiang, Guibin Zhang, Zihan Zhang, Heng Chang, Zhenfei Yin, Qibing Ren, Junchi Yan
cs.AI

초록

계획 수립은 현대 에이전트 시스템이 복잡하고 장기적인 과제를 수행하는 데 핵심적인 능력이 되었지만, 기존 접근법은 주로 고정된 수작업 방식의 계획 구조에 의존하여 개방형 문제들의 구조적 다양성에 적응할 유연성이 부족합니다. 이러한 한계를 해결하기 위해 본 연구에서는 과제별 계획 아키텍처를 자율적으로 합성하고 동적으로 수정하는 메타 계획 패러다임인 TodoEvolve를 소개합니다. 구체적으로, 우리는 먼저 토폴로지, 초기화, 적응, 탐색을 포괄하는 통합 코드베이스 내에서 다양한 계획 패러다임을 표준화하는 모듈식 설계 공간인 PlanFactory를 구축하여 이질적인 계획 패턴을 위한 공통 인터페이스를 제공합니다. PlanFactory를 활용하여 고품질 계획 궤적을 수집하고, 임의의 과제와 에이전트 백본에서 성능이 우수하고 안정적이며 토큰 효율적인 계획 시스템의 생성을 장려하는 다중 목표 강화 학습 목표인 임피던스 기반 선호 최적화(IGPO)를 통해 Todo-14B 모델을 학습시킵니다. 5가지 에이전트 벤치마크에 대한 실증적 평가 결과, TodoEvolve가 신중하게 설계된 계획 모듈을 꾸준히 능가하면서도 경제적인 API 비용과 실행 시간 오버헤드를 유지하는 것으로 나타났습니다.
English
Planning has become a central capability for contemporary agent systems in navigating complex, long-horizon tasks, yet existing approaches predominantly rely on fixed, hand-crafted planning structures that lack the flexibility to adapt to the structural diversity of open-ended problems. To address this limitation, we introduce TodoEvolve, a meta-planning paradigm that autonomously synthesizes and dynamically revises task-specific planning architectures. Specifically, we first construct PlanFactory, a modular design space that standardizes diverse planning paradigms within a unified codebase encompassing topology, initialization, adaptation, and navigation, thereby providing a common interface for heterogeneous planning patterns. Leveraging PlanFactory, we collect high-quality planning trajectories and train Todo-14B via Impedance-Guided Preference Optimization (IGPO), a multi-objective reinforcement learning objective that encourages the generation of planning systems that are performant, stable, and token-efficient across arbitrary tasks and agent backbones. Empirical evaluations on five agentic benchmarks demonstrate that TodoEvolve consistently surpasses carefully engineered planning modules while maintaining economical API costs and runtime overhead.
PDF41February 12, 2026