Un objetivo sin un plan es solo un deseo: Entrenamiento eficiente y efectivo de planificadores globales para tareas de agentes de largo horizonte
A Goal Without a Plan Is Just a Wish: Efficient and Effective Global Planner Training for Long-Horizon Agent Tasks
October 7, 2025
Autores: Shuzheng Si, Haozhe Zhao, Kangyang Luo, Gang Chen, Fanchao Qi, Minjia Zhang, Baobao Chang, Maosong Sun
cs.AI
Resumen
Los agentes basados en modelos de lenguaje de gran escala (LLMs) enfrentan dificultades con el ensayo y error irreflexivo y la generación de acciones alucinatorias debido a la falta de planificación global en tareas de horizonte largo. En este artículo, presentamos un marco de planificación y ejecución y proponemos EAGLET, un método de entrenamiento de planificadores eficiente y efectivo para mejorar las habilidades de planificación del agente ejecutor sin esfuerzo humano. Específicamente, entrenamos un planificador global plug-and-play mediante un proceso de dos pasos: primero sintetizamos planes de alta calidad a partir de un LLM avanzado utilizando nuestra estrategia de filtrado de consenso homólogo propuesta, y aplicamos ajuste fino como un arranque en frío. Además, mejoramos aún más el planificador con una etapa de aprendizaje por refuerzo basada en reglas utilizando una nueva recompensa de ganancia de capacidad del ejecutor, asegurando que pueda manejar instrucciones de tareas de diversa dificultad. Los experimentos en tres tareas de agentes de horizonte largo muestran que los agentes ejecutores equipados con nuestro planificador superan a los métodos existentes, logrando un nuevo rendimiento de vanguardia. Mientras tanto, EAGLET reduce los costos de entrenamiento en 8 veces en comparación con los baselines basados en RL, y no requiere esfuerzo manual ni datos de entrenamiento adicionales, ofreciendo una solución eficiente y efectiva.
English
Agents based on large language models (LLMs) struggle with brainless
trial-and-error and generating hallucinatory actions due to a lack of global
planning in long-horizon tasks. In this paper, we introduce a plan-and-execute
framework and propose EAGLET, an efficient and effective planner training
method to enhance the executor agent's planning abilities without human effort.
Specifically, we train a plug-and-play global planner through a two-step
process: we first synthesize high-quality plans from an advanced LLM using our
proposed homologous consensus filtering strategy, and apply fine-tuning as a
cold start. Moreover, we further improve the planner with a rule-based
reinforcement learning stage using a novel executor capability gain reward,
ensuring it can handle task instructions of varying difficulty. Experiments on
three long-horizon agent tasks show that executor agents equipped with our
planner outperform existing methods, achieving new state-of-the-art
performance. Meanwhile, EAGLET reduces training costs by 8x compared to
RL-based baselines, and it does not require manual effort or extra training
data, offering an efficient and effective solution.