Цель без плана — всего лишь желание: эффективное обучение глобального планировщика для задач агентов с длительным горизонтом
A Goal Without a Plan Is Just a Wish: Efficient and Effective Global Planner Training for Long-Horizon Agent Tasks
October 7, 2025
Авторы: Shuzheng Si, Haozhe Zhao, Kangyang Luo, Gang Chen, Fanchao Qi, Minjia Zhang, Baobao Chang, Maosong Sun
cs.AI
Аннотация
Агенты, основанные на крупных языковых моделях (LLM), сталкиваются с трудностями при выполнении задач, требующих долгосрочного планирования, из-за склонности к бессистемным пробам и ошибкам, а также генерации действий, основанных на галлюцинациях. В данной статье мы представляем фреймворк "планируй и выполняй" и предлагаем EAGLET — эффективный метод обучения планировщика, который улучшает способности исполнительного агента к планированию без участия человека. В частности, мы обучаем универсальный глобальный планировщик в два этапа: сначала синтезируем высококачественные планы с использованием продвинутой LLM и нашей стратегии гомологичного консенсусного фильтрования, а затем применяем тонкую настройку в качестве "холодного старта". Кроме того, мы дополнительно улучшаем планировщик с помощью этапа обучения с подкреплением на основе правил, используя новую награду за прирост способностей исполнителя, что позволяет ему справляться с задачами различной сложности. Эксперименты на трех задачах для агентов с долгосрочным горизонтом показывают, что исполнительные агенты, оснащенные нашим планировщиком, превосходят существующие методы, достигая нового уровня передовых результатов. При этом EAGLET сокращает затраты на обучение в 8 раз по сравнению с базовыми методами на основе обучения с подкреплением и не требует ручных усилий или дополнительных обучающих данных, предлагая эффективное и практичное решение.
English
Agents based on large language models (LLMs) struggle with brainless
trial-and-error and generating hallucinatory actions due to a lack of global
planning in long-horizon tasks. In this paper, we introduce a plan-and-execute
framework and propose EAGLET, an efficient and effective planner training
method to enhance the executor agent's planning abilities without human effort.
Specifically, we train a plug-and-play global planner through a two-step
process: we first synthesize high-quality plans from an advanced LLM using our
proposed homologous consensus filtering strategy, and apply fine-tuning as a
cold start. Moreover, we further improve the planner with a rule-based
reinforcement learning stage using a novel executor capability gain reward,
ensuring it can handle task instructions of varying difficulty. Experiments on
three long-horizon agent tasks show that executor agents equipped with our
planner outperform existing methods, achieving new state-of-the-art
performance. Meanwhile, EAGLET reduces training costs by 8x compared to
RL-based baselines, and it does not require manual effort or extra training
data, offering an efficient and effective solution.