Skywork R1V2: Apprendimento per Rinforzo Ibrido Multimodale per il Ragionamento
Skywork R1V2: Multimodal Hybrid Reinforcement Learning for Reasoning
April 23, 2025
Autori: Chris, Yichen Wei, Yi Peng, Xiaokun Wang, Weijie Qiu, Wei Shen, Tianyidan Xie, Jiangbo Pei, Jianhao Zhang, Yunzhuo Hao, Xuchen Song, Yang Liu, Yahui Zhou
cs.AI
Abstract
Presentiamo Skywork R1V2, un modello di ragionamento multimodale di nuova generazione e un significativo balzo in avanti rispetto al suo predecessore, Skywork R1V. Al suo nucleo, R1V2 introduce un paradigma ibrido di apprendimento per rinforzo che armonizza la guida del modello di ricompensa con strategie basate su regole, affrontando così la sfida di lunga data di bilanciare capacità di ragionamento sofisticate con una vasta generalizzazione. Per migliorare ulteriormente l'efficienza dell'addestramento, proponiamo il meccanismo del Buffer Selettivo di Campioni (Selective Sample Buffer, SSB), che contrasta efficacemente il dilemma dei "Vantaggi Svanenti" intrinseco nell'Ottimizzazione Relativa delle Politiche di Gruppo (Group Relative Policy Optimization, GRPO) dando priorità ai campioni ad alto valore durante il processo di ottimizzazione. È importante notare che abbiamo osservato come segnali di rinforzo eccessivi possano indurre allucinazioni visive—un fenomeno che monitoriamo sistematicamente e mitigiamo attraverso soglie di ricompensa calibrate durante il processo di addestramento. I risultati empirici confermano le eccezionali capacità di R1V2, con prestazioni leader nei benchmark come 62.6 su OlympiadBench, 79.0 su AIME2024, 63.6 su LiveCodeBench e 74.0 su MMMU. Questi risultati sottolineano la superiorità di R1V2 rispetto ai modelli open-source esistenti e dimostrano un progresso significativo nel ridurre il divario di prestazioni con i sistemi proprietari di punta, tra cui Gemini 2.5 e OpenAI o4-mini. I pesi del modello Skywork R1V2 sono stati resi pubblici per promuovere trasparenza e riproducibilità: https://huggingface.co/Skywork/Skywork-R1V2-38B.
English
We present Skywork R1V2, a next-generation multimodal reasoning model and a
major leap forward from its predecessor, Skywork R1V. At its core, R1V2
introduces a hybrid reinforcement learning paradigm that harmonizes
reward-model guidance with rule-based strategies, thereby addressing the
long-standing challenge of balancing sophisticated reasoning capabilities with
broad generalization. To further enhance training efficiency, we propose the
Selective Sample Buffer (SSB) mechanism, which effectively counters the
``Vanishing Advantages'' dilemma inherent in Group Relative Policy Optimization
(GRPO) by prioritizing high-value samples throughout the optimization process.
Notably, we observe that excessive reinforcement signals can induce visual
hallucinations--a phenomenon we systematically monitor and mitigate through
calibrated reward thresholds throughout the training process. Empirical results
affirm the exceptional capability of R1V2, with benchmark-leading performances
such as 62.6 on OlympiadBench, 79.0 on AIME2024, 63.6 on LiveCodeBench, and
74.0 on MMMU. These results underscore R1V2's superiority over existing
open-source models and demonstrate significant progress in closing the
performance gap with premier proprietary systems, including Gemini 2.5 and
OpenAI o4-mini. The Skywork R1V2 model weights have been publicly released to
promote openness and reproducibility
https://huggingface.co/Skywork/Skywork-R1V2-38B.Summary
AI-Generated Summary