Avançando o Raciocínio Multimodal via Aprendizado por Reforço com Início a Frio
Advancing Multimodal Reasoning via Reinforcement Learning with Cold Start
May 28, 2025
Autores: Lai Wei, Yuting Li, Kaipeng Zheng, Chen Wang, Yue Wang, Linghe Kong, Lichao Sun, Weiran Huang
cs.AI
Resumo
Avanços recentes em modelos de linguagem de grande escala (LLMs) demonstraram capacidades impressionantes de raciocínio em cadeia de pensamento, com o aprendizado por reforço (RL) desempenhando um papel crucial nesse progresso. Embora padrões de "momento de insight" — onde os modelos exibem autocorreção por meio de reflexão — sejam frequentemente atribuídos a propriedades emergentes do RL, primeiro demonstramos que esses padrões existem em modelos de linguagem multimodal (MLLMs) antes do treinamento com RL, mas podem não necessariamente correlacionar-se com melhorias no desempenho de raciocínio. Com base nessas percepções, apresentamos um estudo abrangente sobre o aprimoramento do raciocínio multimodal por meio de uma abordagem em duas etapas: (1) ajuste fino supervisionado (SFT) como uma inicialização a frio com padrões estruturados de raciocínio em cadeia de pensamento, seguido por (2) aprendizado por reforço via GRPO para refinar ainda mais essas capacidades. Nossos extensos experimentos mostram que essa abordagem combinada supera consistentemente tanto os métodos apenas com SFT quanto apenas com RL em benchmarks desafiadores de raciocínio multimodal. Os modelos resultantes alcançam desempenho de ponta entre os MLLMs de código aberto em escalas de 3B e 7B, com nosso modelo de 7B mostrando melhorias substanciais em relação aos modelos base (por exemplo, 66,3 %rightarrow73,4 % no MathVista, 62,9 %rightarrow70,4 % no We-Math) e nosso modelo de 3B alcançando desempenho competitivo com vários modelos de 7B. No geral, este trabalho fornece orientações práticas para a construção de modelos avançados de raciocínio multimodal. Nosso código está disponível em https://github.com/waltonfuture/RL-with-Cold-Start.
English
Recent advancements in large language models (LLMs) have demonstrated
impressive chain-of-thought reasoning capabilities, with reinforcement learning
(RL) playing a crucial role in this progress. While "aha moment"
patterns--where models exhibit self-correction through reflection--are often
attributed to emergent properties from RL, we first demonstrate that these
patterns exist in multimodal LLMs (MLLMs) prior to RL training but may not
necessarily correlate with improved reasoning performance. Building on these
insights, we present a comprehensive study on enhancing multimodal reasoning
through a two-stage approach: (1) supervised fine-tuning (SFT) as a cold start
with structured chain-of-thought reasoning patterns, followed by (2)
reinforcement learning via GRPO to further refine these capabilities. Our
extensive experiments show that this combined approach consistently outperforms
both SFT-only and RL-only methods across challenging multimodal reasoning
benchmarks. The resulting models achieve state-of-the-art performance among
open-source MLLMs at both 3B and 7B scales, with our 7B model showing
substantial improvements over base models (e.g., 66.3 %rightarrow73.4 % on
MathVista, 62.9 %rightarrow70.4 % on We-Math) and our 3B model achieving
performance competitive with several 7B models. Overall, this work provides
practical guidance for building advanced multimodal reasoning models. Our code
is available at https://github.com/waltonfuture/RL-with-Cold-Start.