Avanzando en el razonamiento multimodal: desde el arranque en frío optimizado hasta el aprendizaje por refuerzo por etapas
Advancing Multimodal Reasoning: From Optimized Cold Start to Staged Reinforcement Learning
June 4, 2025
Autores: Shuang Chen, Yue Guo, Zhaochen Su, Yafu Li, Yulun Wu, Jiacheng Chen, Jiayu Chen, Weijie Wang, Xiaoye Qu, Yu Cheng
cs.AI
Resumen
Inspirados por las notables capacidades de razonamiento de Deepseek-R1 en tareas textuales complejas, muchos trabajos intentan incentivar habilidades similares en Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) aplicando directamente el aprendizaje por refuerzo (RL). Sin embargo, aún luchan por activar el razonamiento complejo. En este artículo, en lugar de examinar el RL multimodal de forma aislada, profundizamos en las pipelines de entrenamiento actuales e identificamos tres fenómenos cruciales: 1) Una inicialización efectiva en frío es crítica para mejorar el razonamiento de los MLLMs. Curiosamente, encontramos que inicializar únicamente con datos de texto cuidadosamente seleccionados puede llevar a un rendimiento que supera a muchos modelos recientes de razonamiento multimodal, incluso antes del RL multimodal. 2) El GRPO estándar aplicado al RL multimodal sufre de estancamiento de gradientes, lo que degrada la estabilidad y el rendimiento del entrenamiento. 3) Un entrenamiento posterior de RL solo con texto, tras la fase de RL multimodal, mejora aún más el razonamiento multimodal. Este enfoque de entrenamiento por etapas equilibra efectivamente el anclaje perceptual y el desarrollo del razonamiento cognitivo. Al incorporar las ideas anteriores y abordar los problemas del RL multimodal, presentamos ReVisual-R1, logrando un nuevo estado del arte entre los MLLMs de 7B de código abierto en benchmarks desafiantes como MathVerse, MathVision, WeMath, LogicVista, DynaMath, y los desafiantes AIME2024 y AIME2025.
English
Inspired by the remarkable reasoning capabilities of Deepseek-R1 in complex
textual tasks, many works attempt to incentivize similar capabilities in
Multimodal Large Language Models (MLLMs) by directly applying reinforcement
learning (RL). However, they still struggle to activate complex reasoning. In
this paper, rather than examining multimodal RL in isolation, we delve into
current training pipelines and identify three crucial phenomena: 1) Effective
cold start initialization is critical for enhancing MLLM reasoning.
Intriguingly, we find that initializing with carefully selected text data alone
can lead to performance surpassing many recent multimodal reasoning models,
even before multimodal RL. 2) Standard GRPO applied to multimodal RL suffers
from gradient stagnation, which degrades training stability and performance. 3)
Subsequent text-only RL training, following the multimodal RL phase, further
enhances multimodal reasoning. This staged training approach effectively
balances perceptual grounding and cognitive reasoning development. By
incorporating the above insights and addressing multimodal RL issues, we
introduce ReVisual-R1, achieving a new state-of-the-art among open-source 7B
MLLMs on challenging benchmarks including MathVerse, MathVision, WeMath,
LogicVista, DynaMath, and challenging AIME2024 and AIME2025.