ChatPaper.aiChatPaper

Un objectif sans plan n'est qu'un souhait : Entraînement efficace et efficient d'un planificateur global pour des tâches d'agents à long horizon

A Goal Without a Plan Is Just a Wish: Efficient and Effective Global Planner Training for Long-Horizon Agent Tasks

October 7, 2025
papers.authors: Shuzheng Si, Haozhe Zhao, Kangyang Luo, Gang Chen, Fanchao Qi, Minjia Zhang, Baobao Chang, Maosong Sun
cs.AI

papers.abstract

Les agents basés sur des modèles de langage de grande taille (LLMs) peinent à effectuer des essais-erreurs sans réflexion et à générer des actions hallucinatoires en raison d'un manque de planification globale dans les tâches à long terme. Dans cet article, nous introduisons un cadre planifier-exécuter et proposons EAGLET, une méthode de formation de planificateur efficace et efficiente pour améliorer les capacités de planification de l'agent exécuteur sans effort humain. Plus précisément, nous formons un planificateur global plug-and-play via un processus en deux étapes : nous synthétisons d'abord des plans de haute qualité à partir d'un LLM avancé en utilisant notre stratégie de filtrage par consensus homologue, puis appliquons un ajustement fin comme amorçage à froid. De plus, nous améliorons davantage le planificateur avec une étape d'apprentissage par renforcement basée sur des règles utilisant une nouvelle récompense de gain de capacité de l'exécuteur, garantissant qu'il peut gérer des instructions de tâches de difficulté variable. Les expériences sur trois tâches d'agents à long terme montrent que les agents exécuteurs équipés de notre planificateur surpassent les méthodes existantes, atteignant de nouvelles performances de pointe. Par ailleurs, EAGLET réduit les coûts de formation par 8 par rapport aux bases de référence basées sur l'apprentissage par renforcement, et ne nécessite aucun effort manuel ni données de formation supplémentaires, offrant ainsi une solution efficace et efficiente.
English
Agents based on large language models (LLMs) struggle with brainless trial-and-error and generating hallucinatory actions due to a lack of global planning in long-horizon tasks. In this paper, we introduce a plan-and-execute framework and propose EAGLET, an efficient and effective planner training method to enhance the executor agent's planning abilities without human effort. Specifically, we train a plug-and-play global planner through a two-step process: we first synthesize high-quality plans from an advanced LLM using our proposed homologous consensus filtering strategy, and apply fine-tuning as a cold start. Moreover, we further improve the planner with a rule-based reinforcement learning stage using a novel executor capability gain reward, ensuring it can handle task instructions of varying difficulty. Experiments on three long-horizon agent tasks show that executor agents equipped with our planner outperform existing methods, achieving new state-of-the-art performance. Meanwhile, EAGLET reduces training costs by 8x compared to RL-based baselines, and it does not require manual effort or extra training data, offering an efficient and effective solution.
PDF32October 13, 2025