Skywork R1V2: Apprendimento per Rinforzo Ibrido Multimodale per il Ragionamento

Abstract

Presentiamo Skywork R1V2, un modello di ragionamento multimodale di nuova generazione e un significativo balzo in avanti rispetto al suo predecessore, Skywork R1V. Al suo nucleo, R1V2 introduce un paradigma ibrido di apprendimento per rinforzo che armonizza la guida del modello di ricompensa con strategie basate su regole, affrontando così la sfida di lunga data di bilanciare capacità di ragionamento sofisticate con una vasta generalizzazione. Per migliorare ulteriormente l'efficienza dell'addestramento, proponiamo il meccanismo del Buffer Selettivo di Campioni (Selective Sample Buffer, SSB), che contrasta efficacemente il dilemma dei "Vantaggi Svanenti" intrinseco nell'Ottimizzazione Relativa delle Politiche di Gruppo (Group Relative Policy Optimization, GRPO) dando priorità ai campioni ad alto valore durante il processo di ottimizzazione. È importante notare che abbiamo osservato come segnali di rinforzo eccessivi possano indurre allucinazioni visive—un fenomeno che monitoriamo sistematicamente e mitigiamo attraverso soglie di ricompensa calibrate durante il processo di addestramento. I risultati empirici confermano le eccezionali capacità di R1V2, con prestazioni leader nei benchmark come 62.6 su OlympiadBench, 79.0 su AIME2024, 63.6 su LiveCodeBench e 74.0 su MMMU. Questi risultati sottolineano la superiorità di R1V2 rispetto ai modelli open-source esistenti e dimostrano un progresso significativo nel ridurre il divario di prestazioni con i sistemi proprietari di punta, tra cui Gemini 2.5 e OpenAI o4-mini. I pesi del modello Skywork R1V2 sono stati resi pubblici per promuovere trasparenza e riproducibilità: https://huggingface.co/Skywork/Skywork-R1V2-38B.

English

We present Skywork R1V2, a next-generation multimodal reasoning model and a major leap forward from its predecessor, Skywork R1V. At its core, R1V2 introduces a hybrid reinforcement learning paradigm that harmonizes reward-model guidance with rule-based strategies, thereby addressing the long-standing challenge of balancing sophisticated reasoning capabilities with broad generalization. To further enhance training efficiency, we propose the Selective Sample Buffer (SSB) mechanism, which effectively counters the ``Vanishing Advantages'' dilemma inherent in Group Relative Policy Optimization (GRPO) by prioritizing high-value samples throughout the optimization process. Notably, we observe that excessive reinforcement signals can induce visual hallucinations--a phenomenon we systematically monitor and mitigate through calibrated reward thresholds throughout the training process. Empirical results affirm the exceptional capability of R1V2, with benchmark-leading performances such as 62.6 on OlympiadBench, 79.0 on AIME2024, 63.6 on LiveCodeBench, and 74.0 on MMMU. These results underscore R1V2's superiority over existing open-source models and demonstrate significant progress in closing the performance gap with premier proprietary systems, including Gemini 2.5 and OpenAI o4-mini. The Skywork R1V2 model weights have been publicly released to promote openness and reproducibility https://huggingface.co/Skywork/Skywork-R1V2-38B.

Skywork R1V2: Apprendimento per Rinforzo Ibrido Multimodale per il Ragionamento

Skywork R1V2: Multimodal Hybrid Reinforcement Learning for Reasoning

Abstract

Support