計画のない目標は単なる願望に過ぎない:長期的エージェントタスクのための効率的かつ効果的なグローバルプランナー訓練
A Goal Without a Plan Is Just a Wish: Efficient and Effective Global Planner Training for Long-Horizon Agent Tasks
October 7, 2025
著者: Shuzheng Si, Haozhe Zhao, Kangyang Luo, Gang Chen, Fanchao Qi, Minjia Zhang, Baobao Chang, Maosong Sun
cs.AI
要旨
大規模言語モデル(LLM)に基づくエージェントは、長期的なタスクにおけるグローバルな計画の欠如により、無謀な試行錯誤や幻覚的な行動の生成に苦戦しています。本論文では、計画と実行のフレームワークを導入し、人間の労力を必要とせずに実行エージェントの計画能力を向上させるための効率的かつ効果的なプランナー訓練手法であるEAGLETを提案します。具体的には、プラグアンドプレイ型のグローバルプランナーを2段階のプロセスで訓練します。まず、提案する相同コンセンサスフィルタリング戦略を用いて高度なLLMから高品質な計画を合成し、コールドスタートとしてファインチューニングを適用します。さらに、新しい実行能力向上報酬を用いたルールベースの強化学習段階を追加し、難易度の異なるタスク指示に対応できるようにプランナーを改善します。3つの長期的エージェントタスクにおける実験では、我々のプランナーを搭載した実行エージェントが既存の手法を上回り、新たな最先端の性能を達成しました。同時に、EAGLETは強化学習ベースのベースラインと比較して訓練コストを8分の1に削減し、手作業や追加の訓練データを必要としない効率的かつ効果的なソリューションを提供します。
English
Agents based on large language models (LLMs) struggle with brainless
trial-and-error and generating hallucinatory actions due to a lack of global
planning in long-horizon tasks. In this paper, we introduce a plan-and-execute
framework and propose EAGLET, an efficient and effective planner training
method to enhance the executor agent's planning abilities without human effort.
Specifically, we train a plug-and-play global planner through a two-step
process: we first synthesize high-quality plans from an advanced LLM using our
proposed homologous consensus filtering strategy, and apply fine-tuning as a
cold start. Moreover, we further improve the planner with a rule-based
reinforcement learning stage using a novel executor capability gain reward,
ensuring it can handle task instructions of varying difficulty. Experiments on
three long-horizon agent tasks show that executor agents equipped with our
planner outperform existing methods, achieving new state-of-the-art
performance. Meanwhile, EAGLET reduces training costs by 8x compared to
RL-based baselines, and it does not require manual effort or extra training
data, offering an efficient and effective solution.