Skywork R1V2: Aprendizado por Reforço Híbrido Multimodal para Raciocínio
Skywork R1V2: Multimodal Hybrid Reinforcement Learning for Reasoning
April 23, 2025
Autores: Chris, Yichen Wei, Yi Peng, Xiaokun Wang, Weijie Qiu, Wei Shen, Tianyidan Xie, Jiangbo Pei, Jianhao Zhang, Yunzhuo Hao, Xuchen Song, Yang Liu, Yahui Zhou
cs.AI
Resumo
Apresentamos o Skywork R1V2, um modelo de raciocínio multimodal de próxima geração e um grande avanço em relação ao seu antecessor, o Skywork R1V. No cerne do R1V2, introduzimos um paradigma híbrido de aprendizagem por reforço que harmoniza a orientação de modelos de recompensa com estratégias baseadas em regras, abordando assim o desafio de longa data de equilibrar capacidades de raciocínio sofisticadas com generalização ampla. Para aprimorar ainda mais a eficiência do treinamento, propomos o mecanismo de Buffer de Amostras Seletivas (SSB, na sigla em inglês), que efetivamente contorna o dilema das "Vantagens Desaparecidas" inerente à Otimização de Política Relativa em Grupo (GRPO, na sigla em inglês), priorizando amostras de alto valor ao longo do processo de otimização. Notavelmente, observamos que sinais excessivos de reforço podem induzir alucinações visuais—um fenômeno que monitoramos e mitigamos sistematicamente por meio de limiares de recompensa calibrados durante o processo de treinamento. Resultados empíricos confirmam a capacidade excepcional do R1V2, com desempenhos líderes em benchmarks, como 62,6 no OlympiadBench, 79,0 no AIME2024, 63,6 no LiveCodeBench e 74,0 no MMMU. Esses resultados destacam a superioridade do R1V2 sobre os modelos de código aberto existentes e demonstram um progresso significativo no fechamento da lacuna de desempenho em relação aos sistemas proprietários de ponta, incluindo o Gemini 2.5 e o OpenAI o4-mini. Os pesos do modelo Skywork R1V2 foram disponibilizados publicamente para promover abertura e reprodutibilidade em https://huggingface.co/Skywork/Skywork-R1V2-38B.
English
We present Skywork R1V2, a next-generation multimodal reasoning model and a
major leap forward from its predecessor, Skywork R1V. At its core, R1V2
introduces a hybrid reinforcement learning paradigm that harmonizes
reward-model guidance with rule-based strategies, thereby addressing the
long-standing challenge of balancing sophisticated reasoning capabilities with
broad generalization. To further enhance training efficiency, we propose the
Selective Sample Buffer (SSB) mechanism, which effectively counters the
``Vanishing Advantages'' dilemma inherent in Group Relative Policy Optimization
(GRPO) by prioritizing high-value samples throughout the optimization process.
Notably, we observe that excessive reinforcement signals can induce visual
hallucinations--a phenomenon we systematically monitor and mitigate through
calibrated reward thresholds throughout the training process. Empirical results
affirm the exceptional capability of R1V2, with benchmark-leading performances
such as 62.6 on OlympiadBench, 79.0 on AIME2024, 63.6 on LiveCodeBench, and
74.0 on MMMU. These results underscore R1V2's superiority over existing
open-source models and demonstrate significant progress in closing the
performance gap with premier proprietary systems, including Gemini 2.5 and
OpenAI o4-mini. The Skywork R1V2 model weights have been publicly released to
promote openness and reproducibility
https://huggingface.co/Skywork/Skywork-R1V2-38B.Summary
AI-Generated Summary