ChatPaper.aiChatPaper

スキルライブラリを用いた自己改善エージェントのための強化学習

Reinforcement Learning for Self-Improving Agent with Skill Library

December 18, 2025
著者: Jiongxiao Wang, Qiaojing Yan, Yawei Wang, Yijun Tian, Soumya Smruti Mishra, Zhichao Xu, Megha Gandhi, Panpan Xu, Lin Lee Cheong
cs.AI

要旨

大規模言語モデル(LLM)ベースのエージェントは、複雑な推論やマルチターン対話において顕著な能力を示す一方、新たな環境に展開された際の継続的な改善と適応には課題を抱えている。有望なアプローチの一つとして、エージェントが新たなスキルを学習・検証・適用することを可能にするスキルライブラリの実装が挙げられる。しかし、現行のスキルライブラリ手法は主にLLMのプロンプティングに依存しており、一貫性のあるスキルライブラリの実装が困難となっている。これらの課題を克服するため、我々は強化学習(RL)に基づくアプローチを提案し、スキルライブラリによるエージェントの自己改善能力を強化する。具体的には、学習プロセスにスキルを体系的に組み込む新規RLフレームワーク「Skill Augmented GRPO for self-Evolution(SAGE)」を導入する。本フレームワークの核心コンポーネントである「Sequential Rollout」は、各ロールアウトにおいて、類似タスクの連鎖に対してエージェントを反復的に展開する。エージェントがタスク連鎖を進むにつれ、前タスクで生成されたスキルがライブラリに蓄積され、後続タスクで利用可能となる。さらに、本フレームワークは元の結果ベース報酬を補完する「Skill-integrated Reward」により、スキルの生成と活用を強化する。AppWorldにおける実験結果では、専門家の経験で教師ありファインチューニングされたモデルにSAGEを適用した場合、シナリオ目標達成率が8.9%向上し、相互作用ステップ数は26%削減、生成トークン数は59%減少し、精度と効率の両面で既存手法を大幅に上回る性能を示した。
English
Large Language Model (LLM)-based agents have demonstrated remarkable capabilities in complex reasoning and multi-turn interactions but struggle to continuously improve and adapt when deployed in new environments. One promising approach is implementing skill libraries that allow agents to learn, validate, and apply new skills. However, current skill library approaches rely primarily on LLM prompting, making consistent skill library implementation challenging. To overcome these challenges, we propose a Reinforcement Learning (RL)-based approach to enhance agents' self-improvement capabilities with a skill library. Specifically, we introduce Skill Augmented GRPO for self-Evolution (SAGE), a novel RL framework that systematically incorporates skills into learning. The framework's key component, Sequential Rollout, iteratively deploys agents across a chain of similar tasks for each rollout. As agents navigate through the task chain, skills generated from previous tasks accumulate in the library and become available for subsequent tasks. Additionally, the framework enhances skill generation and utilization through a Skill-integrated Reward that complements the original outcome-based rewards. Experimental results on AppWorld demonstrate that SAGE, when applied to supervised-finetuned model with expert experience, achieves 8.9% higher Scenario Goal Completion while requiring 26% fewer interaction steps and generating 59% fewer tokens, substantially outperforming existing approaches in both accuracy and efficiency.
PDF121December 25, 2025