Um Objetivo Sem um Plano É Apenas um Desejo: Treinamento Eficiente e Eficaz de Planejadores Globais para Tarefas de Agentes de Longo Horizonte
A Goal Without a Plan Is Just a Wish: Efficient and Effective Global Planner Training for Long-Horizon Agent Tasks
October 7, 2025
Autores: Shuzheng Si, Haozhe Zhao, Kangyang Luo, Gang Chen, Fanchao Qi, Minjia Zhang, Baobao Chang, Maosong Sun
cs.AI
Resumo
Agentes baseados em grandes modelos de linguagem (LLMs) enfrentam dificuldades com tentativas e erros sem sentido e a geração de ações alucinatórias devido à falta de planejamento global em tarefas de longo prazo. Neste artigo, introduzimos uma estrutura de planejar-e-executar e propomos o EAGLET, um método de treinamento de planejamento eficiente e eficaz para aprimorar as habilidades de planejamento do agente executor sem esforço humano. Especificamente, treinamos um planejador global plug-and-play por meio de um processo em duas etapas: primeiro, sintetizamos planos de alta qualidade a partir de um LLM avançado usando nossa estratégia de filtragem de consenso homólogo proposta e aplicamos o ajuste fino como uma inicialização a frio. Além disso, aprimoramos ainda mais o planejador com uma etapa de aprendizado por reforço baseado em regras, utilizando uma nova recompensa de ganho de capacidade do executor, garantindo que ele possa lidar com instruções de tarefas de diferentes níveis de dificuldade. Experimentos em três tarefas de agente de longo prazo mostram que os agentes executores equipados com nosso planejador superam os métodos existentes, alcançando um novo desempenho de ponta. Enquanto isso, o EAGLET reduz os custos de treinamento em 8 vezes em comparação com as linhas de base baseadas em RL, e não requer esforço manual ou dados de treinamento extras, oferecendo uma solução eficiente e eficaz.
English
Agents based on large language models (LLMs) struggle with brainless
trial-and-error and generating hallucinatory actions due to a lack of global
planning in long-horizon tasks. In this paper, we introduce a plan-and-execute
framework and propose EAGLET, an efficient and effective planner training
method to enhance the executor agent's planning abilities without human effort.
Specifically, we train a plug-and-play global planner through a two-step
process: we first synthesize high-quality plans from an advanced LLM using our
proposed homologous consensus filtering strategy, and apply fine-tuning as a
cold start. Moreover, we further improve the planner with a rule-based
reinforcement learning stage using a novel executor capability gain reward,
ensuring it can handle task instructions of varying difficulty. Experiments on
three long-horizon agent tasks show that executor agents equipped with our
planner outperform existing methods, achieving new state-of-the-art
performance. Meanwhile, EAGLET reduces training costs by 8x compared to
RL-based baselines, and it does not require manual effort or extra training
data, offering an efficient and effective solution.