ChatPaper.aiChatPaper

Ein Ziel ohne Plan ist nur ein Wunsch: Effizientes und effektives Training globaler Planer für langfristige Agentenaufgaben

A Goal Without a Plan Is Just a Wish: Efficient and Effective Global Planner Training for Long-Horizon Agent Tasks

October 7, 2025
papers.authors: Shuzheng Si, Haozhe Zhao, Kangyang Luo, Gang Chen, Fanchao Qi, Minjia Zhang, Baobao Chang, Maosong Sun
cs.AI

papers.abstract

Agenten, die auf großen Sprachmodellen (LLMs) basieren, haben Schwierigkeiten mit gedankenlosem Trial-and-Error und der Erzeugung halluzinatorischer Aktionen aufgrund mangelnder globaler Planung bei langfristigen Aufgaben. In diesem Artikel stellen wir ein Planungs- und Ausführungs-Framework vor und schlagen EAGLET vor, eine effiziente und effektive Methode zur Schulung von Planern, um die Planungsfähigkeiten des ausführenden Agenten ohne menschlichen Aufwand zu verbessern. Konkret trainieren wir einen Plug-and-Play-Globalplaner in einem zweistufigen Prozess: Zuerst synthetisieren wir hochwertige Pläne aus einem fortschrittlichen LLM unter Verwendung unserer vorgeschlagenen homologen Konsensfilterungsstrategie und wenden Feinabstimmung als Kaltstart an. Darüber hinaus verbessern wir den Planer weiter mit einer regelbasierten Verstärkungslernphase unter Verwendung einer neuartigen Belohnung für die Fähigkeitssteigerung des Ausführers, um sicherzustellen, dass er Aufgabenanweisungen unterschiedlicher Schwierigkeit bewältigen kann. Experimente zu drei langfristigen Agentenaufgaben zeigen, dass ausführende Agenten, die mit unserem Planer ausgestattet sind, bestehende Methoden übertreffen und neue Spitzenleistungen erzielen. Gleichzeitig reduziert EAGLET die Trainingskosten um das 8-fache im Vergleich zu RL-basierten Baselines und erfordert weder manuellen Aufwand noch zusätzliche Trainingsdaten, was eine effiziente und effektive Lösung bietet.
English
Agents based on large language models (LLMs) struggle with brainless trial-and-error and generating hallucinatory actions due to a lack of global planning in long-horizon tasks. In this paper, we introduce a plan-and-execute framework and propose EAGLET, an efficient and effective planner training method to enhance the executor agent's planning abilities without human effort. Specifically, we train a plug-and-play global planner through a two-step process: we first synthesize high-quality plans from an advanced LLM using our proposed homologous consensus filtering strategy, and apply fine-tuning as a cold start. Moreover, we further improve the planner with a rule-based reinforcement learning stage using a novel executor capability gain reward, ensuring it can handle task instructions of varying difficulty. Experiments on three long-horizon agent tasks show that executor agents equipped with our planner outperform existing methods, achieving new state-of-the-art performance. Meanwhile, EAGLET reduces training costs by 8x compared to RL-based baselines, and it does not require manual effort or extra training data, offering an efficient and effective solution.
PDF32October 13, 2025