Skywork R1V2: Aprendizado por Reforço Híbrido Multimodal para Raciocínio

Resumo

Apresentamos o Skywork R1V2, um modelo de raciocínio multimodal de próxima geração e um grande avanço em relação ao seu antecessor, o Skywork R1V. No cerne do R1V2, introduzimos um paradigma híbrido de aprendizagem por reforço que harmoniza a orientação de modelos de recompensa com estratégias baseadas em regras, abordando assim o desafio de longa data de equilibrar capacidades de raciocínio sofisticadas com generalização ampla. Para aprimorar ainda mais a eficiência do treinamento, propomos o mecanismo de Buffer de Amostras Seletivas (SSB, na sigla em inglês), que efetivamente contorna o dilema das "Vantagens Desaparecidas" inerente à Otimização de Política Relativa em Grupo (GRPO, na sigla em inglês), priorizando amostras de alto valor ao longo do processo de otimização. Notavelmente, observamos que sinais excessivos de reforço podem induzir alucinações visuais—um fenômeno que monitoramos e mitigamos sistematicamente por meio de limiares de recompensa calibrados durante o processo de treinamento. Resultados empíricos confirmam a capacidade excepcional do R1V2, com desempenhos líderes em benchmarks, como 62,6 no OlympiadBench, 79,0 no AIME2024, 63,6 no LiveCodeBench e 74,0 no MMMU. Esses resultados destacam a superioridade do R1V2 sobre os modelos de código aberto existentes e demonstram um progresso significativo no fechamento da lacuna de desempenho em relação aos sistemas proprietários de ponta, incluindo o Gemini 2.5 e o OpenAI o4-mini. Os pesos do modelo Skywork R1V2 foram disponibilizados publicamente para promover abertura e reprodutibilidade em https://huggingface.co/Skywork/Skywork-R1V2-38B.

English

We present Skywork R1V2, a next-generation multimodal reasoning model and a major leap forward from its predecessor, Skywork R1V. At its core, R1V2 introduces a hybrid reinforcement learning paradigm that harmonizes reward-model guidance with rule-based strategies, thereby addressing the long-standing challenge of balancing sophisticated reasoning capabilities with broad generalization. To further enhance training efficiency, we propose the Selective Sample Buffer (SSB) mechanism, which effectively counters the ``Vanishing Advantages'' dilemma inherent in Group Relative Policy Optimization (GRPO) by prioritizing high-value samples throughout the optimization process. Notably, we observe that excessive reinforcement signals can induce visual hallucinations--a phenomenon we systematically monitor and mitigate through calibrated reward thresholds throughout the training process. Empirical results affirm the exceptional capability of R1V2, with benchmark-leading performances such as 62.6 on OlympiadBench, 79.0 on AIME2024, 63.6 on LiveCodeBench, and 74.0 on MMMU. These results underscore R1V2's superiority over existing open-source models and demonstrate significant progress in closing the performance gap with premier proprietary systems, including Gemini 2.5 and OpenAI o4-mini. The Skywork R1V2 model weights have been publicly released to promote openness and reproducibility https://huggingface.co/Skywork/Skywork-R1V2-38B.

Skywork R1V2: Aprendizado por Reforço Híbrido Multimodal para Raciocínio

Skywork R1V2: Multimodal Hybrid Reinforcement Learning for Reasoning

Resumo

Summary

Support

Support