ChatPaper.aiChatPaper

Skywork R1V: Прорыв в мультимодальном рассуждении с использованием цепочки мыслей

Skywork R1V: Pioneering Multimodal Reasoning with Chain-of-Thought

April 8, 2025
Авторы: Yi Peng, Chris, Xiaokun Wang, Yichen Wei, Jiangbo Pei, Weijie Qiu, Ai Jian, Yunzhuo Hao, Jiachun Pan, Tianyidan Xie, Li Ge, Rongxian Zhuang, Xuchen Song, Yang Liu, Yahui Zhou
cs.AI

Аннотация

Мы представляем Skywork R1V — мультимодальную модель рассуждений, расширяющую возможности крупных языковых моделей (LLM) серии R1 на визуальные модальности с помощью эффективного метода мультимодального переноса. Используя легковесный визуальный проектор, Skywork R1V обеспечивает плавную мультимодальную адаптацию без необходимости повторного обучения как базовой языковой модели, так и визуального энкодера. Для усиления согласованности визуальных и текстовых данных мы предлагаем гибридную стратегию оптимизации, сочетающую итеративное обучение с учителем (SFT) и оптимизацию групповой относительной политики (GRPO), что значительно повышает эффективность кросс-модальной интеграции. Кроме того, мы вводим адаптивный метод дистилляции цепочки рассуждений (Chain-of-Thought) для генерации данных рассуждений. Этот подход динамически оптимизирует длину цепочек рассуждений, повышая эффективность вывода и предотвращая избыточное "переосмысление". Эмпирические оценки показывают, что Skywork R1V, имея всего 38 миллиардов параметров, демонстрирует конкурентоспособные результаты, достигая 69.0 баллов на бенчмарке MMMU и 67.5 на MathVista. При этом модель сохраняет высокую производительность в текстовых рассуждениях, что подтверждается впечатляющими результатами: 72.0 на AIME и 94.0 на MATH500. Веса модели Skywork R1V были опубликованы в открытом доступе для содействия открытости и воспроизводимости.
English
We introduce Skywork R1V, a multimodal reasoning model extending the an R1-series Large language models (LLM) to visual modalities via an efficient multimodal transfer method. Leveraging a lightweight visual projector, Skywork R1V facilitates seamless multimodal adaptation without necessitating retraining of either the foundational language model or the vision encoder. To strengthen visual-text alignment, we propose a hybrid optimization strategy that combines Iterative Supervised Fine-Tuning (SFT) with Group Relative Policy Optimization (GRPO), significantly enhancing cross-modal integration efficiency. Additionally, we introduce an adaptive-length Chain-of-Thought distillation approach for reasoning data generation. This approach dynamically optimizes reasoning chain lengths, thereby enhancing inference efficiency and preventing excessive reasoning overthinking. Empirical evaluations demonstrate that Skywork R1V, with only 38B parameters, delivers competitive performance, achieving a score of 69.0 on the MMMU benchmark and 67.5 on MathVista. Meanwhile, it maintains robust textual reasoning performance, evidenced by impressive scores of 72.0 on AIME and 94.0 on MATH500. The Skywork R1V model weights have been publicly released to promote openness and reproducibility.

Summary

AI-Generated Summary

PDF813April 9, 2025