Avanzamento del Ragionamento Multimodale tramite Apprendimento per Rinforzo con Avvio a Freddo
Advancing Multimodal Reasoning via Reinforcement Learning with Cold Start
May 28, 2025
Autori: Lai Wei, Yuting Li, Kaipeng Zheng, Chen Wang, Yue Wang, Linghe Kong, Lichao Sun, Weiran Huang
cs.AI
Abstract
I recenti progressi nei grandi modelli linguistici (LLM) hanno dimostrato impressionanti capacità di ragionamento a catena di pensiero, con l'apprendimento per rinforzo (RL) che svolge un ruolo cruciale in questo avanzamento. Sebbene i modelli "aha moment" – in cui i modelli mostrano auto-correzione attraverso la riflessione – siano spesso attribuiti a proprietà emergenti dell'RL, dimostriamo innanzitutto che questi modelli esistono nei modelli linguistici multimodali (MLLM) prima dell'addestramento RL, ma non necessariamente si correlano con un miglioramento delle prestazioni di ragionamento. Basandoci su queste intuizioni, presentiamo uno studio completo sul potenziamento del ragionamento multimodale attraverso un approccio in due fasi: (1) fine-tuning supervisionato (SFT) come avvio a freddo con schemi strutturati di ragionamento a catena di pensiero, seguito da (2) apprendimento per rinforzo tramite GRPO per affinare ulteriormente queste capacità. I nostri esperimenti estesi dimostrano che questo approccio combinato supera costantemente sia i metodi basati esclusivamente su SFT che quelli basati esclusivamente su RL in benchmark impegnativi di ragionamento multimodale. I modelli risultanti raggiungono prestazioni all'avanguardia tra gli MLLM open-source sia su scala 3B che 7B, con il nostro modello 7B che mostra miglioramenti sostanziali rispetto ai modelli base (ad esempio, 66.3 %rightarrow73.4 % su MathVista, 62.9 %rightarrow70.4 % su We-Math) e il nostro modello 3B che raggiunge prestazioni competitive con diversi modelli 7B. Nel complesso, questo lavoro fornisce indicazioni pratiche per la costruzione di modelli avanzati di ragionamento multimodale. Il nostro codice è disponibile all'indirizzo https://github.com/waltonfuture/RL-with-Cold-Start.
English
Recent advancements in large language models (LLMs) have demonstrated
impressive chain-of-thought reasoning capabilities, with reinforcement learning
(RL) playing a crucial role in this progress. While "aha moment"
patterns--where models exhibit self-correction through reflection--are often
attributed to emergent properties from RL, we first demonstrate that these
patterns exist in multimodal LLMs (MLLMs) prior to RL training but may not
necessarily correlate with improved reasoning performance. Building on these
insights, we present a comprehensive study on enhancing multimodal reasoning
through a two-stage approach: (1) supervised fine-tuning (SFT) as a cold start
with structured chain-of-thought reasoning patterns, followed by (2)
reinforcement learning via GRPO to further refine these capabilities. Our
extensive experiments show that this combined approach consistently outperforms
both SFT-only and RL-only methods across challenging multimodal reasoning
benchmarks. The resulting models achieve state-of-the-art performance among
open-source MLLMs at both 3B and 7B scales, with our 7B model showing
substantial improvements over base models (e.g., 66.3 %rightarrow73.4 % on
MathVista, 62.9 %rightarrow70.4 % on We-Math) and our 3B model achieving
performance competitive with several 7B models. Overall, this work provides
practical guidance for building advanced multimodal reasoning models. Our code
is available at https://github.com/waltonfuture/RL-with-Cold-Start.