¿SFT o RL? Una investigación temprana sobre el entrenamiento de modelos grandes de lenguaje y visión con razonamiento similar a R1
SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models
April 10, 2025
Autores: Hardy Chen, Haoqin Tu, Fali Wang, Hui Liu, Xianfeng Tang, Xinya Du, Yuyin Zhou, Cihang Xie
cs.AI
Resumen
Este trabajo revisa el paradigma dominante de ajuste fino supervisado (SFT, por sus siglas en inglés) seguido de aprendizaje por refuerzo (RL) para entrenar Modelos de Lenguaje y Visión a Gran Escala (LVLMs), y revela un hallazgo clave: el SFT puede socavar significativamente el RL posterior al inducir "rutas de razonamiento pseudo" imitadas de modelos expertos. Aunque estas rutas pueden parecerse a las rutas de razonamiento nativas de los modelos RL, a menudo involucran pasos prolongados, vacilantes, menos informativos y razonamientos incorrectos. Para estudiar sistemáticamente este efecto, presentamos VLAA-Thinking, un nuevo conjunto de datos multimodal diseñado para apoyar el razonamiento en LVLMs. Construido mediante una canalización de seis pasos que incluye subtitulado, destilación de razonamiento, reescritura de respuestas y verificación, VLAA-Thinking comprende trazas de razonamiento visual paso a paso de alta calidad para SFT, junto con una división más desafiante de RL proveniente de la misma fuente de datos. Utilizando este conjunto de datos, realizamos extensos experimentos comparando SFT, RL y sus combinaciones. Los resultados muestran que, aunque el SFT ayuda a los modelos a aprender formatos de razonamiento, a menudo bloquea a los modelos alineados en modos de razonamiento imitativos y rígidos que impiden un aprendizaje adicional. En contraste, basándonos en la Optimización de Política Relativa de Grupo (GRPO) con un nuevo módulo de recompensa mixta que integra señales de percepción y cognición, nuestro enfoque de RL fomenta un comportamiento de razonamiento más genuino y adaptable. Notablemente, nuestro modelo VLAA-Thinker, basado en Qwen2.5VL 3B, alcanza el rendimiento top-1 en el Open LMM Reasoning Leaderboard (https://huggingface.co/spaces/opencompass/Open_LMM_Reasoning_Leaderboard) entre los LVLMs de escala 4B, superando el estado del arte anterior en un 1.8%. Esperamos que nuestros hallazgos proporcionen insights valiosos para el desarrollo de LVLMs con capacidad de razonamiento y puedan informar investigaciones futuras en esta área.
English
This work revisits the dominant supervised fine-tuning (SFT) then
reinforcement learning (RL) paradigm for training Large Vision-Language Models
(LVLMs), and reveals a key finding: SFT can significantly undermine subsequent
RL by inducing ``pseudo reasoning paths'' imitated from expert models. While
these paths may resemble the native reasoning paths of RL models, they often
involve prolonged, hesitant, less informative steps, and incorrect reasoning.
To systematically study this effect, we introduce VLAA-Thinking, a new
multimodal dataset designed to support reasoning in LVLMs. Constructed via a
six-step pipeline involving captioning, reasoning distillation, answer rewrite
and verification, VLAA-Thinking comprises high-quality, step-by-step visual
reasoning traces for SFT, along with a more challenging RL split from the same
data source. Using this dataset, we conduct extensive experiments comparing
SFT, RL and their combinations. Results show that while SFT helps models learn
reasoning formats, it often locks aligned models into imitative, rigid
reasoning modes that impede further learning. In contrast, building on the
Group Relative Policy Optimization (GRPO) with a novel mixed reward module
integrating both perception and cognition signals, our RL approach fosters more
genuine, adaptive reasoning behavior. Notably, our model VLAA-Thinker, based on
Qwen2.5VL 3B, achieves top-1 performance on Open LMM Reasoning Leaderboard
(https://huggingface.co/spaces/opencompass/Open_LMM_Reasoning_Leaderboard)
among 4B scale LVLMs, surpassing the previous state-of-the-art by 1.8%. We hope
our findings provide valuable insights in developing reasoning-capable LVLMs
and can inform future research in this area.Summary
AI-Generated Summary