Skywork R1V2: 추론을 위한 멀티모달 하이브리드 강화 학습
Skywork R1V2: Multimodal Hybrid Reinforcement Learning for Reasoning
April 23, 2025
저자: Chris, Yichen Wei, Yi Peng, Xiaokun Wang, Weijie Qiu, Wei Shen, Tianyidan Xie, Jiangbo Pei, Jianhao Zhang, Yunzhuo Hao, Xuchen Song, Yang Liu, Yahui Zhou
cs.AI
초록
우리는 차세대 멀티모달 추론 모델인 Skywork R1V2를 소개하며, 이는 이전 버전인 Skywork R1V에서 큰 도약을 이룬 모델입니다. R1V2의 핵심은 보상 모델 지도와 규칙 기반 전략을 조화롭게 통합한 하이브리드 강화 학습 패러다임을 도입함으로써, 정교한 추론 능력과 광범위한 일반화 사이의 오랜 문제를 해결했습니다. 또한, 훈련 효율성을 더욱 향상시키기 위해 선택적 샘플 버퍼(SSB) 메커니즘을 제안했습니다. 이 메커니즘은 그룹 상대 정책 최적화(GRPO)에서 발생하는 "소실된 이점" 딜레마를 해결하기 위해 최적화 과정에서 고가치 샘플을 우선적으로 처리합니다. 특히, 과도한 강화 신호가 시각적 환각을 유발할 수 있다는 점을 관찰했으며, 이를 훈련 과정 전반에 걸쳐 보정된 보상 임계값을 통해 체계적으로 모니터링하고 완화했습니다. 실험 결과는 R1V2의 탁월한 능력을 입증하며, OlympiadBench에서 62.6, AIME2024에서 79.0, LiveCodeBench에서 63.6, MMMU에서 74.0과 같은 벤치마크 선두 성적을 기록했습니다. 이러한 결과는 R1V2가 기존 오픈소스 모델을 뛰어넘는 우수성을 보여주며, Gemini 2.5 및 OpenAI o4-mini와 같은 주요 독점 시스템과의 성능 격차를 크게 좁혔음을 입증합니다. Skywork R1V2 모델 가중치는 공개되어 개방성과 재현성을 촉진합니다. https://huggingface.co/Skywork/Skywork-R1V2-38B.
English
We present Skywork R1V2, a next-generation multimodal reasoning model and a
major leap forward from its predecessor, Skywork R1V. At its core, R1V2
introduces a hybrid reinforcement learning paradigm that harmonizes
reward-model guidance with rule-based strategies, thereby addressing the
long-standing challenge of balancing sophisticated reasoning capabilities with
broad generalization. To further enhance training efficiency, we propose the
Selective Sample Buffer (SSB) mechanism, which effectively counters the
``Vanishing Advantages'' dilemma inherent in Group Relative Policy Optimization
(GRPO) by prioritizing high-value samples throughout the optimization process.
Notably, we observe that excessive reinforcement signals can induce visual
hallucinations--a phenomenon we systematically monitor and mitigate through
calibrated reward thresholds throughout the training process. Empirical results
affirm the exceptional capability of R1V2, with benchmark-leading performances
such as 62.6 on OlympiadBench, 79.0 on AIME2024, 63.6 on LiveCodeBench, and
74.0 on MMMU. These results underscore R1V2's superiority over existing
open-source models and demonstrate significant progress in closing the
performance gap with premier proprietary systems, including Gemini 2.5 and
OpenAI o4-mini. The Skywork R1V2 model weights have been publicly released to
promote openness and reproducibility
https://huggingface.co/Skywork/Skywork-R1V2-38B.Summary
AI-Generated Summary