SFT oder RL? Eine frühe Untersuchung zur Trainierung von R1-ähnlichen Reasoning-Modellen für große Vision-Sprach-Modelle
SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models
April 10, 2025
Autoren: Hardy Chen, Haoqin Tu, Fali Wang, Hui Liu, Xianfeng Tang, Xinya Du, Yuyin Zhou, Cihang Xie
cs.AI
Zusammenfassung
Diese Arbeit untersucht erneut das vorherrschende Paradigma des überwachten Feinabstimmens (Supervised Fine-Tuning, SFT) gefolgt von Reinforcement Learning (RL) für das Training großer visuell-sprachlicher Modelle (Large Vision-Language Models, LVLMs) und enthüllt eine zentrale Erkenntnis: SFT kann nachfolgendes RL erheblich beeinträchtigen, indem es „pseudo-logische Pfade“ induziert, die von Expertenmodellen imitiert werden. Obwohl diese Pfade den natürlichen Denkpfaden von RL-Modellen ähneln mögen, beinhalten sie oft langwierige, zögerliche, weniger informative Schritte und fehlerhafte Schlussfolgerungen. Um diesen Effekt systematisch zu untersuchen, führen wir VLAA-Thinking ein, einen neuen multimodalen Datensatz, der das logische Denken in LVLMs unterstützen soll. VLAA-Thinking wurde über einen sechsstufigen Prozess erstellt, der Beschriftung, logische Destillation, Antwortumformulierung und -überprüfung umfasst, und besteht aus hochwertigen, schrittweisen visuellen Denkpfaden für SFT sowie einer anspruchsvolleren RL-Aufteilung aus derselben Datenquelle. Mit diesem Datensatz führen wir umfangreiche Experimente durch, in denen SFT, RL und deren Kombinationen verglichen werden. Die Ergebnisse zeigen, dass SFT zwar hilft, Denkformate zu erlernen, aber oft dazu führt, dass ausgerichtete Modelle in imitative, starre Denkmuster verfallen, die weiteres Lernen behindern. Im Gegensatz dazu fördert unser RL-Ansatz, der auf der Group Relative Policy Optimization (GRPO) mit einem neuartigen gemischten Belohnungsmodul basiert, das sowohl Wahrnehmungs- als auch Kognitionssignale integriert, ein authentischeres und adaptiveres Denkverhalten. Bemerkenswerterweise erreicht unser Modell VLAA-Thinker, basierend auf Qwen2.5VL 3B, die Top-1-Leistung auf dem Open LMM Reasoning Leaderboard (https://huggingface.co/spaces/opencompass/Open_LMM_Reasoning_Leaderboard) unter den LVLMs im 4B-Maßstab und übertrifft den bisherigen Stand der Technik um 1,8 %. Wir hoffen, dass unsere Erkenntnisse wertvolle Einblicke in die Entwicklung von LVLMs mit logischen Fähigkeiten bieten und zukünftige Forschungen in diesem Bereich informieren können.
English
This work revisits the dominant supervised fine-tuning (SFT) then
reinforcement learning (RL) paradigm for training Large Vision-Language Models
(LVLMs), and reveals a key finding: SFT can significantly undermine subsequent
RL by inducing ``pseudo reasoning paths'' imitated from expert models. While
these paths may resemble the native reasoning paths of RL models, they often
involve prolonged, hesitant, less informative steps, and incorrect reasoning.
To systematically study this effect, we introduce VLAA-Thinking, a new
multimodal dataset designed to support reasoning in LVLMs. Constructed via a
six-step pipeline involving captioning, reasoning distillation, answer rewrite
and verification, VLAA-Thinking comprises high-quality, step-by-step visual
reasoning traces for SFT, along with a more challenging RL split from the same
data source. Using this dataset, we conduct extensive experiments comparing
SFT, RL and their combinations. Results show that while SFT helps models learn
reasoning formats, it often locks aligned models into imitative, rigid
reasoning modes that impede further learning. In contrast, building on the
Group Relative Policy Optimization (GRPO) with a novel mixed reward module
integrating both perception and cognition signals, our RL approach fosters more
genuine, adaptive reasoning behavior. Notably, our model VLAA-Thinker, based on
Qwen2.5VL 3B, achieves top-1 performance on Open LMM Reasoning Leaderboard
(https://huggingface.co/spaces/opencompass/Open_LMM_Reasoning_Leaderboard)
among 4B scale LVLMs, surpassing the previous state-of-the-art by 1.8%. We hope
our findings provide valuable insights in developing reasoning-capable LVLMs
and can inform future research in this area.Summary
AI-Generated Summary