ChatPaper.aiChatPaper

계획 없는 목표는 단순한 소망일 뿐이다: 장기적 에이전트 작업을 위한 효율적이고 효과적인 글로벌 플래너 훈련

A Goal Without a Plan Is Just a Wish: Efficient and Effective Global Planner Training for Long-Horizon Agent Tasks

October 7, 2025
저자: Shuzheng Si, Haozhe Zhao, Kangyang Luo, Gang Chen, Fanchao Qi, Minjia Zhang, Baobao Chang, Maosong Sun
cs.AI

초록

대규모 언어 모델(LLM) 기반 에이전트는 장기적 과제에서 전역 계획의 부족으로 인해 무분별한 시행착오와 환각적 행동을 생성하는 데 어려움을 겪습니다. 본 논문에서는 계획-실행 프레임워크를 소개하고, 인간의 노력 없이 실행자 에이전트의 계획 능력을 향상시키기 위한 효율적이고 효과적인 계획자 훈련 방법인 EAGLET을 제안합니다. 구체적으로, 우리는 플러그 앤 플레이 방식의 전역 계획자를 두 단계 과정을 통해 훈련합니다: 먼저, 제안된 동종 합의 필터링 전략을 사용하여 고급 LLM에서 고품질 계획을 합성하고, 이를 미세 조정을 통해 콜드 스타트로 적용합니다. 또한, 새로운 실행자 능력 획득 보상을 사용한 규칙 기반 강화 학습 단계를 통해 계획자를 더욱 개선하여 다양한 난이도의 작업 지시를 처리할 수 있도록 합니다. 세 가지 장기적 에이전트 과제에 대한 실험 결과, 우리의 계획자를 장착한 실행자 에이전트는 기존 방법들을 능가하며 새로운 최첨단 성능을 달성했습니다. 동시에, EAGLET은 강화 학습 기반 베이스라인 대비 훈련 비용을 8배 절감하며, 수동 노력이나 추가 훈련 데이터가 필요하지 않아 효율적이고 효과적인 솔루션을 제공합니다.
English
Agents based on large language models (LLMs) struggle with brainless trial-and-error and generating hallucinatory actions due to a lack of global planning in long-horizon tasks. In this paper, we introduce a plan-and-execute framework and propose EAGLET, an efficient and effective planner training method to enhance the executor agent's planning abilities without human effort. Specifically, we train a plug-and-play global planner through a two-step process: we first synthesize high-quality plans from an advanced LLM using our proposed homologous consensus filtering strategy, and apply fine-tuning as a cold start. Moreover, we further improve the planner with a rule-based reinforcement learning stage using a novel executor capability gain reward, ensuring it can handle task instructions of varying difficulty. Experiments on three long-horizon agent tasks show that executor agents equipped with our planner outperform existing methods, achieving new state-of-the-art performance. Meanwhile, EAGLET reduces training costs by 8x compared to RL-based baselines, and it does not require manual effort or extra training data, offering an efficient and effective solution.
PDF32October 13, 2025