Un obiettivo senza un piano è solo un desiderio: Addestramento efficiente ed efficace di pianificatori globali per compiti di agenti a lungo orizzonte
A Goal Without a Plan Is Just a Wish: Efficient and Effective Global Planner Training for Long-Horizon Agent Tasks
October 7, 2025
Autori: Shuzheng Si, Haozhe Zhao, Kangyang Luo, Gang Chen, Fanchao Qi, Minjia Zhang, Baobao Chang, Maosong Sun
cs.AI
Abstract
Gli agenti basati su modelli linguistici di grandi dimensioni (LLM) faticano a gestire tentativi ed errori privi di logica e a generare azioni allucinatorie a causa della mancanza di una pianificazione globale in compiti a lungo termine. In questo articolo, introduciamo un framework di pianificazione ed esecuzione e proponiamo EAGLET, un metodo di addestramento del pianificatore efficiente ed efficace per potenziare le capacità di pianificazione dell'agente esecutore senza sforzo umano. Nello specifico, addestriamo un pianificatore globale plug-and-play attraverso un processo in due fasi: inizialmente sintetizziamo piani di alta qualità da un LLM avanzato utilizzando la nostra strategia di filtraggio del consenso omologo, e applichiamo il fine-tuning come avvio a freddo. Inoltre, miglioriamo ulteriormente il pianificatore con una fase di apprendimento per rinforzo basato su regole utilizzando una ricompensa basata sul guadagno di capacità dell'esecutore, garantendo che possa gestire istruzioni di compiti di varia difficoltà. Esperimenti su tre compiti di agenti a lungo termine dimostrano che gli agenti esecutori equipaggiati con il nostro pianificatore superano i metodi esistenti, raggiungendo nuove prestazioni all'avanguardia. Nel frattempo, EAGLET riduce i costi di addestramento di 8 volte rispetto ai baseline basati su RL, e non richiede sforzo manuale o dati di addestramento aggiuntivi, offrendo una soluzione efficiente ed efficace.
English
Agents based on large language models (LLMs) struggle with brainless
trial-and-error and generating hallucinatory actions due to a lack of global
planning in long-horizon tasks. In this paper, we introduce a plan-and-execute
framework and propose EAGLET, an efficient and effective planner training
method to enhance the executor agent's planning abilities without human effort.
Specifically, we train a plug-and-play global planner through a two-step
process: we first synthesize high-quality plans from an advanced LLM using our
proposed homologous consensus filtering strategy, and apply fine-tuning as a
cold start. Moreover, we further improve the planner with a rule-based
reinforcement learning stage using a novel executor capability gain reward,
ensuring it can handle task instructions of varying difficulty. Experiments on
three long-horizon agent tasks show that executor agents equipped with our
planner outperform existing methods, achieving new state-of-the-art
performance. Meanwhile, EAGLET reduces training costs by 8x compared to
RL-based baselines, and it does not require manual effort or extra training
data, offering an efficient and effective solution.