Een doel zonder plan is slechts een wens: Efficiënte en effectieve training van globale planners voor langetermijntaken van agents
A Goal Without a Plan Is Just a Wish: Efficient and Effective Global Planner Training for Long-Horizon Agent Tasks
October 7, 2025
Auteurs: Shuzheng Si, Haozhe Zhao, Kangyang Luo, Gang Chen, Fanchao Qi, Minjia Zhang, Baobao Chang, Maosong Sun
cs.AI
Samenvatting
Agents gebaseerd op grote taalmodellen (LLMs) hebben moeite met doelloos trial-and-error en het genereren van hallucinerende acties vanwege een gebrek aan globale planning bij taken met een lange horizon. In dit artikel introduceren we een plan-en-uitvoer raamwerk en stellen we EAGLET voor, een efficiënte en effectieve methode voor het trainen van planners om de planningsvaardigheden van de uitvoerende agent te verbeteren zonder menselijke inspanning. Specifiek trainen we een plug-and-play globale planner via een tweestaps proces: we synthetiseren eerst hoogwaardige plannen van een geavanceerd LLM met behulp van onze voorgestelde homologe consensusfilterstrategie, en passen fine-tuning toe als een koude start. Bovendien verbeteren we de planner verder met een op regels gebaseerde reinforcement learning-fase met behulp van een nieuwe beloning voor het verkrijgen van uitvoeringscapaciteit, waardoor deze taken van verschillende moeilijkheidsgraden aankan. Experimenten op drie taken voor agents met een lange horizon laten zien dat uitvoerende agents uitgerust met onze planner bestaande methoden overtreffen en nieuwe state-of-the-art prestaties behalen. Tegelijkertijd reduceert EAGLET de trainingskosten met een factor 8 vergeleken met RL-gebaseerde baselines, en vereist het geen handmatige inspanning of extra trainingsdata, wat een efficiënte en effectieve oplossing biedt.
English
Agents based on large language models (LLMs) struggle with brainless
trial-and-error and generating hallucinatory actions due to a lack of global
planning in long-horizon tasks. In this paper, we introduce a plan-and-execute
framework and propose EAGLET, an efficient and effective planner training
method to enhance the executor agent's planning abilities without human effort.
Specifically, we train a plug-and-play global planner through a two-step
process: we first synthesize high-quality plans from an advanced LLM using our
proposed homologous consensus filtering strategy, and apply fine-tuning as a
cold start. Moreover, we further improve the planner with a rule-based
reinforcement learning stage using a novel executor capability gain reward,
ensuring it can handle task instructions of varying difficulty. Experiments on
three long-horizon agent tasks show that executor agents equipped with our
planner outperform existing methods, achieving new state-of-the-art
performance. Meanwhile, EAGLET reduces training costs by 8x compared to
RL-based baselines, and it does not require manual effort or extra training
data, offering an efficient and effective solution.