ChatPaper.aiChatPaper

SFT или RL? Предварительное исследование обучения крупных визуально-языковых моделей с рассуждениями, подобными R1

SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models

April 10, 2025
Авторы: Hardy Chen, Haoqin Tu, Fali Wang, Hui Liu, Xianfeng Tang, Xinya Du, Yuyin Zhou, Cihang Xie
cs.AI

Аннотация

В данной работе пересматривается доминирующая парадигма обучения крупных визуально-языковых моделей (LVLMs), которая включает сначала тонкую настройку с учителем (SFT), а затем обучение с подкреплением (RL). В ходе исследования выявлен ключевой вывод: SFT может существенно ослабить последующее RL, вызывая «псевдо-пути рассуждений», имитируемые экспертных моделей. Хотя эти пути могут напоминать естественные пути рассуждений моделей RL, они часто включают длительные, неуверенные, менее информативные шаги и ошибочные рассуждения. Для систематического изучения этого эффекта мы представляем VLAA-Thinking — новый мультимодальный набор данных, разработанный для поддержки рассуждений в LVLMs. Созданный с помощью шестиэтапного процесса, включающего создание подписей, дистилляцию рассуждений, переписывание ответов и проверку, VLAA-Thinking содержит высококачественные пошаговые визуальные траектории рассуждений для SFT, а также более сложный раздел RL из того же источника данных. Используя этот набор данных, мы проводим обширные эксперименты, сравнивая SFT, RL и их комбинации. Результаты показывают, что хотя SFT помогает моделям изучать форматы рассуждений, она часто фиксирует выровненные модели в имитационных, жестких режимах рассуждений, которые препятствуют дальнейшему обучению. В отличие от этого, наша методика RL, основанная на оптимизации групповой относительной политики (GRPO) с новым модулем смешанного вознаграждения, интегрирующим как перцептивные, так и когнитивные сигналы, способствует более подлинному, адаптивному поведению рассуждений. Примечательно, что наша модель VLAA-Thinker, основанная на Qwen2.5VL 3B, достигает наивысшей производительности на Open LMM Reasoning Leaderboard (https://huggingface.co/spaces/opencompass/Open_LMM_Reasoning_Leaderboard) среди LVLMs масштаба 4B, превосходя предыдущее состояние искусства на 1,8%. Мы надеемся, что наши выводы предоставят ценные инсайты для разработки LVLMs, способных к рассуждениям, и смогут информировать будущие исследования в этой области.
English
This work revisits the dominant supervised fine-tuning (SFT) then reinforcement learning (RL) paradigm for training Large Vision-Language Models (LVLMs), and reveals a key finding: SFT can significantly undermine subsequent RL by inducing ``pseudo reasoning paths'' imitated from expert models. While these paths may resemble the native reasoning paths of RL models, they often involve prolonged, hesitant, less informative steps, and incorrect reasoning. To systematically study this effect, we introduce VLAA-Thinking, a new multimodal dataset designed to support reasoning in LVLMs. Constructed via a six-step pipeline involving captioning, reasoning distillation, answer rewrite and verification, VLAA-Thinking comprises high-quality, step-by-step visual reasoning traces for SFT, along with a more challenging RL split from the same data source. Using this dataset, we conduct extensive experiments comparing SFT, RL and their combinations. Results show that while SFT helps models learn reasoning formats, it often locks aligned models into imitative, rigid reasoning modes that impede further learning. In contrast, building on the Group Relative Policy Optimization (GRPO) with a novel mixed reward module integrating both perception and cognition signals, our RL approach fosters more genuine, adaptive reasoning behavior. Notably, our model VLAA-Thinker, based on Qwen2.5VL 3B, achieves top-1 performance on Open LMM Reasoning Leaderboard (https://huggingface.co/spaces/opencompass/Open_LMM_Reasoning_Leaderboard) among 4B scale LVLMs, surpassing the previous state-of-the-art by 1.8%. We hope our findings provide valuable insights in developing reasoning-capable LVLMs and can inform future research in this area.

Summary

AI-Generated Summary

PDF282April 17, 2025