SFT of RL? Een vroeg onderzoek naar het trainen van R1-achtige redeneerende grote visueel-taalmodelen
SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models
April 10, 2025
Auteurs: Hardy Chen, Haoqin Tu, Fali Wang, Hui Liu, Xianfeng Tang, Xinya Du, Yuyin Zhou, Cihang Xie
cs.AI
Samenvatting
Dit werk herziet het dominante paradigma van supervised fine-tuning (SFT) gevolgd door reinforcement learning (RL) voor het trainen van Large Vision-Language Models (LVLMs), en onthult een belangrijke bevinding: SFT kan het daaropvolgende RL aanzienlijk ondermijnen door het induceren van "pseudo-redeneerpaden" die worden nagebootst van expertmodellen. Hoewel deze paden kunnen lijken op de natuurlijke redeneerpaden van RL-modellen, omvatten ze vaak langdurige, aarzelende, minder informatieve stappen en incorrect redeneren. Om dit effect systematisch te bestuderen, introduceren we VLAA-Thinking, een nieuwe multimodale dataset die is ontworpen om redeneren in LVLMs te ondersteunen. Geconstrueerd via een zesstappenpijplijn die captioning, reasoning distillation, answer rewrite en verificatie omvat, bestaat VLAA-Thinking uit hoogwaardige, stapsgewijze visuele redeneersporen voor SFT, samen met een uitdagender RL-deel van dezelfde databron. Met behulp van deze dataset voeren we uitgebreide experimenten uit waarbij we SFT, RL en hun combinaties vergelijken. De resultaten tonen aan dat hoewel SFT modellen helpt om redeneerformats te leren, het vaak uitgelijnde modellen vastzet in imitatieve, rigide redeneermodi die verder leren belemmeren. Daarentegen bevordert onze RL-aanpak, gebaseerd op Group Relative Policy Optimization (GRPO) met een nieuwe gemengde beloningsmodule die zowel perceptie- als cognitiesignalen integreert, meer authentiek, adaptief redeneergedrag. Opmerkelijk is dat ons model VLAA-Thinker, gebaseerd op Qwen2.5VL 3B, de top-1 prestatie behaalt op de Open LMM Reasoning Leaderboard (https://huggingface.co/spaces/opencompass/Open_LMM_Reasoning_Leaderboard) onder LVLMs van 4B-schaal, en daarmee de vorige state-of-the-art met 1,8% overtreft. We hopen dat onze bevindingen waardevolle inzichten bieden bij de ontwikkeling van redeneerbare LVLMs en toekomstig onderzoek op dit gebied kunnen informeren.
English
This work revisits the dominant supervised fine-tuning (SFT) then
reinforcement learning (RL) paradigm for training Large Vision-Language Models
(LVLMs), and reveals a key finding: SFT can significantly undermine subsequent
RL by inducing ``pseudo reasoning paths'' imitated from expert models. While
these paths may resemble the native reasoning paths of RL models, they often
involve prolonged, hesitant, less informative steps, and incorrect reasoning.
To systematically study this effect, we introduce VLAA-Thinking, a new
multimodal dataset designed to support reasoning in LVLMs. Constructed via a
six-step pipeline involving captioning, reasoning distillation, answer rewrite
and verification, VLAA-Thinking comprises high-quality, step-by-step visual
reasoning traces for SFT, along with a more challenging RL split from the same
data source. Using this dataset, we conduct extensive experiments comparing
SFT, RL and their combinations. Results show that while SFT helps models learn
reasoning formats, it often locks aligned models into imitative, rigid
reasoning modes that impede further learning. In contrast, building on the
Group Relative Policy Optimization (GRPO) with a novel mixed reward module
integrating both perception and cognition signals, our RL approach fosters more
genuine, adaptive reasoning behavior. Notably, our model VLAA-Thinker, based on
Qwen2.5VL 3B, achieves top-1 performance on Open LMM Reasoning Leaderboard
(https://huggingface.co/spaces/opencompass/Open_LMM_Reasoning_Leaderboard)
among 4B scale LVLMs, surpassing the previous state-of-the-art by 1.8%. We hope
our findings provide valuable insights in developing reasoning-capable LVLMs
and can inform future research in this area.Summary
AI-Generated Summary