SFT ou RL? Uma Investigação Preliminar sobre o Treinamento de Modelos de Grande Porte de Linguagem e Visão com Raciocínio Semelhante ao R1
SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models
April 10, 2025
Autores: Hardy Chen, Haoqin Tu, Fali Wang, Hui Liu, Xianfeng Tang, Xinya Du, Yuyin Zhou, Cihang Xie
cs.AI
Resumo
Este trabalho revisita o paradigma dominante de ajuste fino supervisionado (SFT) seguido de aprendizado por reforço (RL) para o treinamento de Grandes Modelos de Visão e Linguagem (LVLMs), e revela uma descoberta crucial: o SFT pode comprometer significativamente o RL subsequente ao induzir "caminhos de raciocínio pseudo" imitados de modelos especialistas. Embora esses caminhos possam se assemelhar aos caminhos de raciocínio nativos dos modelos de RL, eles frequentemente envolvem etapas prolongadas, hesitantes, menos informativas e com raciocínio incorreto. Para estudar sistematicamente esse efeito, introduzimos o VLAA-Thinking, um novo conjunto de dados multimodal projetado para apoiar o raciocínio em LVLMs. Construído por meio de um pipeline de seis etapas que inclui legendagem, destilação de raciocínio, reescrita de respostas e verificação, o VLAA-Thinking compreende traços de raciocínio visual passo a passo de alta qualidade para SFT, juntamente com uma divisão mais desafiadora de RL da mesma fonte de dados. Utilizando esse conjunto de dados, realizamos extensos experimentos comparando SFT, RL e suas combinações. Os resultados mostram que, embora o SFT ajude os modelos a aprender formatos de raciocínio, ele frequentemente bloqueia modelos alinhados em modos de raciocínio imitativos e rígidos que impedem o aprendizado adicional. Em contraste, ao construir sobre a Otimização de Política Relativa de Grupo (GRPO) com um novo módulo de recompensa mista que integra sinais de percepção e cognição, nossa abordagem de RL promove um comportamento de raciocínio mais genuíno e adaptativo. Notavelmente, nosso modelo VLAA-Thinker, baseado no Qwen2.5VL 3B, alcança o desempenho top-1 no Open LMM Reasoning Leaderboard (https://huggingface.co/spaces/opencompass/Open_LMM_Reasoning_Leaderboard) entre LVLMs de escala 4B, superando o estado da arte anterior em 1,8%. Esperamos que nossas descobertas forneçam insights valiosos para o desenvolvimento de LVLMs capazes de raciocínio e possam informar pesquisas futuras nessa área.
English
This work revisits the dominant supervised fine-tuning (SFT) then
reinforcement learning (RL) paradigm for training Large Vision-Language Models
(LVLMs), and reveals a key finding: SFT can significantly undermine subsequent
RL by inducing ``pseudo reasoning paths'' imitated from expert models. While
these paths may resemble the native reasoning paths of RL models, they often
involve prolonged, hesitant, less informative steps, and incorrect reasoning.
To systematically study this effect, we introduce VLAA-Thinking, a new
multimodal dataset designed to support reasoning in LVLMs. Constructed via a
six-step pipeline involving captioning, reasoning distillation, answer rewrite
and verification, VLAA-Thinking comprises high-quality, step-by-step visual
reasoning traces for SFT, along with a more challenging RL split from the same
data source. Using this dataset, we conduct extensive experiments comparing
SFT, RL and their combinations. Results show that while SFT helps models learn
reasoning formats, it often locks aligned models into imitative, rigid
reasoning modes that impede further learning. In contrast, building on the
Group Relative Policy Optimization (GRPO) with a novel mixed reward module
integrating both perception and cognition signals, our RL approach fosters more
genuine, adaptive reasoning behavior. Notably, our model VLAA-Thinker, based on
Qwen2.5VL 3B, achieves top-1 performance on Open LMM Reasoning Leaderboard
(https://huggingface.co/spaces/opencompass/Open_LMM_Reasoning_Leaderboard)
among 4B scale LVLMs, surpassing the previous state-of-the-art by 1.8%. We hope
our findings provide valuable insights in developing reasoning-capable LVLMs
and can inform future research in this area.Summary
AI-Generated Summary