ChatPaper.aiChatPaper

SkillRL: Развитие агентов с помощью рекурсивного обучения с подкреплением, дополненного навыками

SkillRL: Evolving Agents via Recursive Skill-Augmented Reinforcement Learning

February 9, 2026
Авторы: Peng Xia, Jianwen Chen, Hanyang Wang, Jiaqi Liu, Kaide Zeng, Yu Wang, Siwei Han, Yiyang Zhou, Xujiang Zhao, Haifeng Chen, Zeyu Zheng, Cihang Xie, Huaxiu Yao
cs.AI

Аннотация

Агенты больших языковых моделей (LLМ) демонстрируют впечатляющие результаты в решении сложных задач, однако часто работают изолированно, не обучаясь на предыдущем опыте. Существующие методы на основе памяти в основном сохраняют сырые траектории, которые часто избыточны и содержат много шума. Это мешает агентам извлекать высокоуровневые, повторно используемые поведенческие паттерны, необходимые для обобщения. В данной статье мы предлагаем SkillRL — фреймворк, который устраняет разрыв между сырым опытом и улучшением политики через автоматическое обнаружение навыков и рекурсивную эволюцию. Наш подход вводит механизм дистилляции на основе опыта для построения иерархической библиотеки навыков SkillBank, адаптивную стратегию извлечения общих и специфичных для задач эвристик, а также механизм рекурсивной эволюции, позволяющий библиотеке навыков совместно эволюционировать с политикой агента в процессе обучения с подкреплением. Эти инновации значительно сокращают объем используемых токенов при одновременном повышении полезности рассуждений. Результаты экспериментов на ALFWorld, WebShop и семи задачах с расширенным поиском показывают, что SkillRL достигает наилучших результатов, превосходя сильные базовые методы более чем на 15,3% и сохраняя устойчивость при росте сложности задач. Код доступен по ссылке: https://github.com/aiming-lab/SkillRL.
English
Large Language Model (LLM) agents have shown stunning results in complex tasks, yet they often operate in isolation, failing to learn from past experiences. Existing memory-based methods primarily store raw trajectories, which are often redundant and noise-heavy. This prevents agents from extracting high-level, reusable behavioral patterns that are essential for generalization. In this paper, we propose SkillRL, a framework that bridges the gap between raw experience and policy improvement through automatic skill discovery and recursive evolution. Our approach introduces an experience-based distillation mechanism to build a hierarchical skill library SkillBank, an adaptive retrieval strategy for general and task-specific heuristics, and a recursive evolution mechanism that allows the skill library to co-evolve with the agent's policy during reinforcement learning. These innovations significantly reduce the token footprint while enhancing reasoning utility. Experimental results on ALFWorld, WebShop and seven search-augmented tasks demonstrate that SkillRL achieves state-of-the-art performance, outperforming strong baselines over 15.3% and maintaining robustness as task complexity increases. Code is available at this https://github.com/aiming-lab/SkillRL.
PDF561February 12, 2026