Обучение с подкреплением для самосовершенствующегося агента с библиотекой навыков
Reinforcement Learning for Self-Improving Agent with Skill Library
December 18, 2025
Авторы: Jiongxiao Wang, Qiaojing Yan, Yawei Wang, Yijun Tian, Soumya Smruti Mishra, Zhichao Xu, Megha Gandhi, Panpan Xu, Lin Lee Cheong
cs.AI
Аннотация
Агенты на основе больших языковых моделей (LLM) демонстрируют впечатляющие способности в решении сложных задач и многократных взаимодействиях, но испытывают трудности с непрерывным улучшением и адаптацией при развертывании в новых средах. Перспективным подходом является создание библиотек навыков, которые позволяют агентам изучать, проверять и применять новые умения. Однако современные подходы к созданию таких библиотек в основном опираются на промптинг LLM, что затрудняет последовательную реализацию библиотеки навыков. Для преодоления этих ограничений мы предлагаем подход на основе обучения с подкреплением (Reinforcement Learning, RL) для расширения возможностей самообучения агентов с помощью библиотеки навыков. В частности, мы представляем Skill Augmented GRPO for self-Evolution (SAGE) — новую RL-архитектуру, которая систематически интегрирует навыки в процесс обучения. Ключевой компонент архитектуры, Sequential Rollout, итеративно развертывает агентов в цепочке схожих задач для каждого этапа обучения. По мере прохождения агентом цепочки задач навыки, сгенерированные в предыдущих задачах, накапливаются в библиотеке и становятся доступными для последующих задач. Кроме того, архитектура улучшает генерацию и использование навыков с помощью Skill-integrated Reward, который дополняет исходные вознаграждения, основанные на результате. Эксперименты на платформе AppWorld показывают, что SAGE, примененная к модели, дообученной с учителем на экспертных данных, достигает на 8.9% более высокого показателя выполнения сценария, при этом требуя на 26% меньше шагов взаимодействия и генерируя на 59% меньше токенов, что существенно превосходит существующие подходы как по точности, так и по эффективности.
English
Large Language Model (LLM)-based agents have demonstrated remarkable capabilities in complex reasoning and multi-turn interactions but struggle to continuously improve and adapt when deployed in new environments. One promising approach is implementing skill libraries that allow agents to learn, validate, and apply new skills. However, current skill library approaches rely primarily on LLM prompting, making consistent skill library implementation challenging. To overcome these challenges, we propose a Reinforcement Learning (RL)-based approach to enhance agents' self-improvement capabilities with a skill library. Specifically, we introduce Skill Augmented GRPO for self-Evolution (SAGE), a novel RL framework that systematically incorporates skills into learning. The framework's key component, Sequential Rollout, iteratively deploys agents across a chain of similar tasks for each rollout. As agents navigate through the task chain, skills generated from previous tasks accumulate in the library and become available for subsequent tasks. Additionally, the framework enhances skill generation and utilization through a Skill-integrated Reward that complements the original outcome-based rewards. Experimental results on AppWorld demonstrate that SAGE, when applied to supervised-finetuned model with expert experience, achieves 8.9% higher Scenario Goal Completion while requiring 26% fewer interaction steps and generating 59% fewer tokens, substantially outperforming existing approaches in both accuracy and efficiency.