Skywork R1V2: Мультимодальное гибридное обучение с подкреплением для решения задач
Skywork R1V2: Multimodal Hybrid Reinforcement Learning for Reasoning
April 23, 2025
Авторы: Chris, Yichen Wei, Yi Peng, Xiaokun Wang, Weijie Qiu, Wei Shen, Tianyidan Xie, Jiangbo Pei, Jianhao Zhang, Yunzhuo Hao, Xuchen Song, Yang Liu, Yahui Zhou
cs.AI
Аннотация
Представляем Skywork R1V2 — модель следующего поколения для мультимодального анализа, представляющую собой значительный шаг вперед по сравнению с её предшественницей, Skywork R1V. В основе R1V2 лежит гибридная парадигма обучения с подкреплением, которая гармонично сочетает управление на основе моделей вознаграждения с правилами, основанными на стратегиях, тем самым решая давнюю проблему баланса между сложными аналитическими способностями и широкой обобщаемостью. Для дальнейшего повышения эффективности обучения мы предлагаем механизм Selective Sample Buffer (SSB), который эффективно устраняет проблему "исчезающих преимуществ", присущую Group Relative Policy Optimization (GRPO), за счёт приоритизации высокоценных выборок на протяжении всего процесса оптимизации. Примечательно, что мы наблюдаем, что чрезмерные сигналы подкрепления могут вызывать визуальные галлюцинации — явление, которое мы систематически отслеживаем и смягчаем с помощью калиброванных порогов вознаграждения в процессе обучения. Эмпирические результаты подтверждают исключительные возможности R1V2, демонстрируя лидирующие показатели на бенчмарках: 62.6 на OlympiadBench, 79.0 на AIME2024, 63.6 на LiveCodeBench и 74.0 на MMMU. Эти результаты подчеркивают превосходство R1V2 над существующими открытыми моделями и демонстрируют значительный прогресс в сокращении разрыва в производительности с ведущими проприетарными системами, включая Gemini 2.5 и OpenAI o4-mini. Веса модели Skywork R1V2 были опубликованы в открытом доступе для содействия открытости и воспроизводимости: https://huggingface.co/Skywork/Skywork-R1V2-38B.
English
We present Skywork R1V2, a next-generation multimodal reasoning model and a
major leap forward from its predecessor, Skywork R1V. At its core, R1V2
introduces a hybrid reinforcement learning paradigm that harmonizes
reward-model guidance with rule-based strategies, thereby addressing the
long-standing challenge of balancing sophisticated reasoning capabilities with
broad generalization. To further enhance training efficiency, we propose the
Selective Sample Buffer (SSB) mechanism, which effectively counters the
``Vanishing Advantages'' dilemma inherent in Group Relative Policy Optimization
(GRPO) by prioritizing high-value samples throughout the optimization process.
Notably, we observe that excessive reinforcement signals can induce visual
hallucinations--a phenomenon we systematically monitor and mitigate through
calibrated reward thresholds throughout the training process. Empirical results
affirm the exceptional capability of R1V2, with benchmark-leading performances
such as 62.6 on OlympiadBench, 79.0 on AIME2024, 63.6 on LiveCodeBench, and
74.0 on MMMU. These results underscore R1V2's superiority over existing
open-source models and demonstrate significant progress in closing the
performance gap with premier proprietary systems, including Gemini 2.5 and
OpenAI o4-mini. The Skywork R1V2 model weights have been publicly released to
promote openness and reproducibility
https://huggingface.co/Skywork/Skywork-R1V2-38B.Summary
AI-Generated Summary