Skills-Coach: トレーニング不要のGRPOによる自己進化型スキル最適化システム
Skills-Coach: A Self-Evolving Skill Optimizer via Training-Free GRPO
April 30, 2026
著者: Yu Tian, Jiawei Chen, Lifan Zheng, Mingxiang Tao, Xinyi Zeng, Zhaoxia Yin, Hang Su, Xian Sun
cs.AI
要旨
本論文では、大規模言語モデル(LLM)ベースのエージェントにおけるスキルの自己進化を大幅に強化するために設計された、新しい自動化フレームワーク「Skills-Coach」を提案する。Skills-Coachは、現在のスキルエコシステムの断片化という課題に対処し、スキル能力の限界を探求することで、インテリジェントアプリケーションに不可欠な包括的な能力カバレッジの実現を促進する。本フレームワークは4つのコアモジュールで構成される:多様なスキルに対する包括的なテストスイートを体系的に生成する「多様タスク生成モジュール」、スキルプロンプトと対応するコードの最適化に特化した「軽量最適化モジュール」、元のスキルと最適化されたスキルの両方を実行・評価する「比較実行モジュール」、そして特定の基準に基づいて性能を厳密に評価する「追跡可能評価モジュール」である。Skills-Coachは、仮想モードと実モードを通じて柔軟な実行オプションを提供する。有効性を検証するため、48の多様なスキルから構成される包括的なベンチマークデータセット「Skill-X」を導入した。実験結果は、Skills-Coachが幅広いカテゴリにわたるスキル能力において顕著な性能向上を達成することを示しており、より堅牢で適応性の高いLLMベースエージェントの開発を推進する可能性を明らかにしている。
English
We introduce Skills-Coach, a novel automated framework designed to significantly enhance the self-evolution of skills within Large Language Model (LLM)-based agents. Addressing the current fragmentation of the skill ecosystem, Skills-Coach explores the boundaries of skill capabilities, thereby facilitating the comprehensive competency coverage essential for intelligent applications. The framework comprises four core modules: a Diverse Task Generation Module that systematically creates a comprehensive test suite for various skills; a Lightweight Optimization Module dedicated to optimizing skill prompts and their corresponding code; a Comparative Execution Module facilitating the execution and evaluation of both original and optimized skills; and a Traceable Evaluation Module, which rigorously evaluates performance against specified criteria. Skills-Coach offers flexible execution options through its virtual and real modes. To validate its efficacy, we introduce Skill-X, a comprehensive benchmark dataset consisting of 48 diverse skills. Experimental results demonstrate that Skills-Coach achieves significant performance improvements in skill capability across a wide range of categories, highlighting its potential to advance the development of more robust and adaptable LLM-based agents.