スキル1:強化学習によるスキル拡張エージェントの統合的進化Skill1: Unified Evolution of Skill-Augmented Agents via Reinforcement Learning
持続的スキルライブラリにより、言語モデルエージェントは成功した戦略をタスク横断的に再利用できる。このライブラリを維持するには、3つの連動した能力が求められる。エージェントは関連するスキルを選択し、実行中にそれを活用し、経験から新たなスキルを蒸留する。既存手法ではこれらの能力を個別に、あるいは異なる報酬源で最適化するため、部分的な進化と矛盾が生じる。我々はSkill1を提案する。これは単一のポリシーを訓練し、スキル選択・活用・蒸留を共有のタスク成果目標に向けて共進化させるフレームワークである。ポリシーはスキルライブラリを検索するクエリを生成し、候補を再ランクして選択し、それを条件としてタスクを解決し、軌跡から新たなスキルを蒸留する。学習は単一のタスク成果信号から導出される。その低周波トレンドは選択を、高周波変動は蒸留をそれぞれ評価する。ALFWorldとWebShopでの実験により、Skill1が従来のスキルベース手法および強化学習ベースラインを上回ることを示す。訓練ダイナミクスは3つの能力の共進化を確認し、 ablation実験ではいずれの評価信号を除去しても進化が劣化することを示す。