Skywork R1V2:推論のためのマルチモーダルハイブリッド強化学習
Skywork R1V2: Multimodal Hybrid Reinforcement Learning for Reasoning
April 23, 2025
著者: Chris, Yichen Wei, Yi Peng, Xiaokun Wang, Weijie Qiu, Wei Shen, Tianyidan Xie, Jiangbo Pei, Jianhao Zhang, Yunzhuo Hao, Xuchen Song, Yang Liu, Yahui Zhou
cs.AI
要旨
Skywork R1V2を紹介します。これは次世代のマルチモーダル推論モデルであり、前身であるSkywork R1Vから大きな飛躍を遂げたものです。R1V2の中核には、報酬モデルのガイダンスとルールベースの戦略を調和させたハイブリッド強化学習パラダイムが導入されており、洗練された推論能力と広範な汎化性のバランスを取るという長年の課題に対処しています。さらに、トレーニング効率を向上させるため、Selective Sample Buffer(SSB)メカニズムを提案しました。これは、Group Relative Policy Optimization(GRPO)に内在する「Vanishing Advantages」のジレンマに対処し、最適化プロセス全体で高価値サンプルを優先します。特に、過剰な強化学習信号が視覚的幻覚を引き起こす現象を観察し、トレーニングプロセス全体で調整された報酬閾値を通じて体系的に監視・緩和しています。実験結果は、R1V2の卓越した能力を裏付けており、OlympiadBenchで62.6、AIME2024で79.0、LiveCodeBenchで63.6、MMMUで74.0といったベンチマークをリードするパフォーマンスを示しています。これらの結果は、R1V2が既存のオープンソースモデルを凌駕し、Gemini 2.5やOpenAI o4-miniといった主要なプロプライエタリシステムとの性能差を縮めるための重要な進展を実証しています。Skywork R1V2のモデルウェイトは、透明性と再現性を促進するため、公開されています。https://huggingface.co/Skywork/Skywork-R1V2-38B
English
We present Skywork R1V2, a next-generation multimodal reasoning model and a
major leap forward from its predecessor, Skywork R1V. At its core, R1V2
introduces a hybrid reinforcement learning paradigm that harmonizes
reward-model guidance with rule-based strategies, thereby addressing the
long-standing challenge of balancing sophisticated reasoning capabilities with
broad generalization. To further enhance training efficiency, we propose the
Selective Sample Buffer (SSB) mechanism, which effectively counters the
``Vanishing Advantages'' dilemma inherent in Group Relative Policy Optimization
(GRPO) by prioritizing high-value samples throughout the optimization process.
Notably, we observe that excessive reinforcement signals can induce visual
hallucinations--a phenomenon we systematically monitor and mitigate through
calibrated reward thresholds throughout the training process. Empirical results
affirm the exceptional capability of R1V2, with benchmark-leading performances
such as 62.6 on OlympiadBench, 79.0 on AIME2024, 63.6 on LiveCodeBench, and
74.0 on MMMU. These results underscore R1V2's superiority over existing
open-source models and demonstrate significant progress in closing the
performance gap with premier proprietary systems, including Gemini 2.5 and
OpenAI o4-mini. The Skywork R1V2 model weights have been publicly released to
promote openness and reproducibility
https://huggingface.co/Skywork/Skywork-R1V2-38B.Summary
AI-Generated Summary