SFT ou RL ? Une première investigation sur l'entraînement de grands modèles de vision et de langage de type R1 pour le raisonnement
SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models
April 10, 2025
Auteurs: Hardy Chen, Haoqin Tu, Fali Wang, Hui Liu, Xianfeng Tang, Xinya Du, Yuyin Zhou, Cihang Xie
cs.AI
Résumé
Ce travail revisite le paradigme dominant d'affinage supervisé (SFT) suivi d'apprentissage par renforcement (RL) pour l'entraînement des grands modèles vision-langage (LVLMs), et révèle une découverte clé : le SFT peut considérablement compromettre le RL ultérieur en induisant des « pseudo-chemins de raisonnement » imités à partir de modèles experts. Bien que ces chemins puissent ressembler aux chemins de raisonnement natifs des modèles RL, ils impliquent souvent des étapes prolongées, hésitantes, moins informatives et un raisonnement incorrect. Pour étudier systématiquement cet effet, nous introduisons VLAA-Thinking, un nouveau jeu de données multimodal conçu pour soutenir le raisonnement dans les LVLMs. Construit via un pipeline en six étapes incluant la génération de légendes, la distillation de raisonnement, la réécriture de réponses et la vérification, VLAA-Thinking comprend des traces de raisonnement visuel de haute qualité étape par étape pour le SFT, ainsi qu'une division RL plus exigeante provenant de la même source de données. En utilisant ce jeu de données, nous menons des expériences approfondies comparant le SFT, le RL et leurs combinaisons. Les résultats montrent que si le SFT aide les modèles à apprendre les formats de raisonnement, il enferme souvent les modèles alignés dans des modes de raisonnement imitatifs et rigides qui entravent l'apprentissage ultérieur. En revanche, en s'appuyant sur l'optimisation de politique relative de groupe (GRPO) avec un nouveau module de récompense mixte intégrant à la fois des signaux de perception et de cognition, notre approche RL favorise un comportement de raisonnement plus authentique et adaptatif. Notamment, notre modèle VLAA-Thinker, basé sur Qwen2.5VL 3B, atteint la première place sur le classement Open LMM Reasoning Leaderboard (https://huggingface.co/spaces/opencompass/Open_LMM_Reasoning_Leaderboard) parmi les LVLMs de 4B, surpassant l'état de l'art précédent de 1,8 %. Nous espérons que nos résultats fourniront des insights précieux pour le développement de LVLMs capables de raisonnement et pourront éclairer les recherches futures dans ce domaine.
English
This work revisits the dominant supervised fine-tuning (SFT) then
reinforcement learning (RL) paradigm for training Large Vision-Language Models
(LVLMs), and reveals a key finding: SFT can significantly undermine subsequent
RL by inducing ``pseudo reasoning paths'' imitated from expert models. While
these paths may resemble the native reasoning paths of RL models, they often
involve prolonged, hesitant, less informative steps, and incorrect reasoning.
To systematically study this effect, we introduce VLAA-Thinking, a new
multimodal dataset designed to support reasoning in LVLMs. Constructed via a
six-step pipeline involving captioning, reasoning distillation, answer rewrite
and verification, VLAA-Thinking comprises high-quality, step-by-step visual
reasoning traces for SFT, along with a more challenging RL split from the same
data source. Using this dataset, we conduct extensive experiments comparing
SFT, RL and their combinations. Results show that while SFT helps models learn
reasoning formats, it often locks aligned models into imitative, rigid
reasoning modes that impede further learning. In contrast, building on the
Group Relative Policy Optimization (GRPO) with a novel mixed reward module
integrating both perception and cognition signals, our RL approach fosters more
genuine, adaptive reasoning behavior. Notably, our model VLAA-Thinker, based on
Qwen2.5VL 3B, achieves top-1 performance on Open LMM Reasoning Leaderboard
(https://huggingface.co/spaces/opencompass/Open_LMM_Reasoning_Leaderboard)
among 4B scale LVLMs, surpassing the previous state-of-the-art by 1.8%. We hope
our findings provide valuable insights in developing reasoning-capable LVLMs
and can inform future research in this area.Summary
AI-Generated Summary