Avanzando en el razonamiento multimodal mediante aprendizaje por refuerzo con inicio en frío
Advancing Multimodal Reasoning via Reinforcement Learning with Cold Start
May 28, 2025
Autores: Lai Wei, Yuting Li, Kaipeng Zheng, Chen Wang, Yue Wang, Linghe Kong, Lichao Sun, Weiran Huang
cs.AI
Resumen
Los avances recientes en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado capacidades impresionantes de razonamiento en cadena de pensamiento, donde el aprendizaje por refuerzo (RL, por sus siglas en inglés) desempeña un papel crucial en este progreso. Aunque los patrones de "momento eureka", donde los modelos muestran autocorrección a través de la reflexión, a menudo se atribuyen a propiedades emergentes del RL, primero demostramos que estos patrones existen en modelos de lenguaje multimodal (MLLMs, por sus siglas en inglés) antes del entrenamiento con RL, pero no necesariamente se correlacionan con un mejor rendimiento en el razonamiento. Basándonos en estas observaciones, presentamos un estudio exhaustivo sobre la mejora del razonamiento multimodal mediante un enfoque de dos etapas: (1) ajuste fino supervisado (SFT, por sus siglas en inglés) como un inicio en frío con patrones estructurados de razonamiento en cadena de pensamiento, seguido de (2) aprendizaje por refuerzo mediante GRPO para refinar aún más estas capacidades. Nuestros extensos experimentos muestran que este enfoque combinado supera consistentemente tanto a los métodos basados únicamente en SFT como a los basados únicamente en RL en diversos puntos de referencia desafiantes de razonamiento multimodal. Los modelos resultantes logran un rendimiento de vanguardia entre los MLLMs de código abierto en escalas de 3B y 7B, con nuestro modelo de 7B mostrando mejoras sustanciales sobre los modelos base (por ejemplo, 66.3 %rightarrow73.4 % en MathVista, 62.9 %rightarrow70.4 % en We-Math) y nuestro modelo de 3B alcanzando un rendimiento competitivo con varios modelos de 7B. En general, este trabajo proporciona orientación práctica para la construcción de modelos avanzados de razonamiento multimodal. Nuestro código está disponible en https://github.com/waltonfuture/RL-with-Cold-Start.
English
Recent advancements in large language models (LLMs) have demonstrated
impressive chain-of-thought reasoning capabilities, with reinforcement learning
(RL) playing a crucial role in this progress. While "aha moment"
patterns--where models exhibit self-correction through reflection--are often
attributed to emergent properties from RL, we first demonstrate that these
patterns exist in multimodal LLMs (MLLMs) prior to RL training but may not
necessarily correlate with improved reasoning performance. Building on these
insights, we present a comprehensive study on enhancing multimodal reasoning
through a two-stage approach: (1) supervised fine-tuning (SFT) as a cold start
with structured chain-of-thought reasoning patterns, followed by (2)
reinforcement learning via GRPO to further refine these capabilities. Our
extensive experiments show that this combined approach consistently outperforms
both SFT-only and RL-only methods across challenging multimodal reasoning
benchmarks. The resulting models achieve state-of-the-art performance among
open-source MLLMs at both 3B and 7B scales, with our 7B model showing
substantial improvements over base models (e.g., 66.3 %rightarrow73.4 % on
MathVista, 62.9 %rightarrow70.4 % on We-Math) and our 3B model achieving
performance competitive with several 7B models. Overall, this work provides
practical guidance for building advanced multimodal reasoning models. Our code
is available at https://github.com/waltonfuture/RL-with-Cold-Start.Summary
AI-Generated Summary