ChatPaper.aiChatPaper

Skill-RM: エージェントスキルによる異種評価基準の統合

Skill-RM: Unifying Heterogeneous Evaluation Criteria via Agent Skill

June 2, 2026
著者: Tao Chen, Gangwei Jiang, Pengyu Cheng, Siyuan Huang, Yihao Liu, Jingwei Ni, Jiaqi Guo, Mengyu Zhou, Kai Tang, Junling Liu, Qinliang Su, Xiaoxi Jiang, Guanjun Jiang
cs.AI

要旨

報酬モデル(RM)は、LLMのポストトレーニング、特に強化学習ファインチューニング(RFT)や強化学習(RL)パイプラインにおいて、重要なフィードバック信号を提供する。しかし、現在の報酬評価はルールベース検証器、正解参照、手続きチェックリスト、複雑な評価基準といった異質な基準に依存しており、あらゆる種類の証拠を統合する統一メカニズムは未だ検討されていない。この課題に対し、我々はスキル報酬モデル(Skill-RM)を提案する。これは報酬モデリングを再利用可能な報酬評価スキルの実行として再定義する統一フレームワークである。報酬計算を構造化されたエージェント的タスクとして扱うことで、Skill-RMは異種リソースを統制する一貫したインターフェースを提供し、各入力の具体的な要件に応じて証拠を動的に選択・集約する。このアプローチにより、報酬モデルは静的な評価を超え、多様なタスクにわたって一貫性と透明性を確保する。報酬ベンチマークおよびベストオブN選択や強化学習を含む下流アプリケーションにおける広範な実験により、Skill-RMが従来の審査ベースラインを一貫して上回ることが実証された。我々の知見は、Skill-RMが報酬モデリングの統一的なソリューションを提供するだけでなく、証拠の戦略的かつ動的な統合を通じて優れた性能を達成することを示唆している。コードはhttps://github.com/Qwen-Applications/Skill-RMで公開されている。
English
Reward models (RMs) provide critical feedback signals for LLM post-training, notably in reinforced fine-tuning (RFT) and reinforcement learning (RL) pipelines. However, current reward evaluation relies on heterogeneous criteria such as rule-based verifiers, ground-truth references, procedural checklists, and complex rubrics, where a unified mechanism to integrate all types of evidence remains unexplored. To this end, we propose Skill Reward Model (Skill-RM), a unified framework that reformulates reward modeling as the execution of a reusable Reward-Evaluation Skill. By treating reward computation as a structured agentic task, Skill-RM provides a consistent interface to orchestrate heterogeneous resources, dynamically selecting and aggregating evidence tailored to the specific requirements of each input. This approach enables the reward model to move beyond static evaluation, ensuring consistency and transparency across diverse tasks. Extensive experiments on reward benchmarks and downstream applications, including best-of-N selection and reinforcement learning, demonstrate that Skill-RM consistently outperforms traditional judge baselines. Our findings suggest that Skill-RM not only provides a unified solution for reward modeling but also achieves superior performance through the strategic and dynamic orchestration of evidence. The code is at https://github.com/Qwen-Applications/Skill-RM.