Het bevorderen van multimodale redenering via reinforcement learning met een koude start
Advancing Multimodal Reasoning via Reinforcement Learning with Cold Start
May 28, 2025
Auteurs: Lai Wei, Yuting Li, Kaipeng Zheng, Chen Wang, Yue Wang, Linghe Kong, Lichao Sun, Weiran Huang
cs.AI
Samenvatting
Recente ontwikkelingen in grote taalmodellen (LLMs) hebben indrukwekkende keten-van-gedachten-redeneervaardigheden laten zien, waarbij reinforcement learning (RL) een cruciale rol speelt in deze vooruitgang. Hoewel "aha-moment"-patronen—waarbij modellen zelfcorrectie vertonen door reflectie—vaak worden toegeschreven aan emergente eigenschappen van RL, tonen we eerst aan dat deze patronen bestaan in multimodale LLMs (MLLMs) vóór RL-training, maar niet noodzakelijkerwijs correleren met verbeterde redeneerprestaties. Op basis van deze inzichten presenteren we een uitgebreide studie over het verbeteren van multimodaal redeneren via een tweefasenbenadering: (1) supervised fine-tuning (SFT) als een koude start met gestructureerde keten-van-gedachten-redeneerpatronen, gevolgd door (2) reinforcement learning via GRPO om deze vaardigheden verder te verfijnen. Onze uitgebreide experimenten tonen aan dat deze gecombineerde aanpak consistent beter presteert dan zowel SFT-only als RL-only methoden op uitdagende multimodale redeneerbenchmarks. De resulterende modellen behalen state-of-the-art prestaties onder open-source MLLMs op zowel 3B als 7B schaal, waarbij ons 7B-model aanzienlijke verbeteringen laat zien ten opzichte van basismodellen (bijv., 66,3 %rightarrow73,4 % op MathVista, 62,9 %rightarrow70,4 % op We-Math) en ons 3B-model prestaties bereikt die competitief zijn met verschillende 7B-modellen. Over het algemeen biedt dit werk praktische richtlijnen voor het bouwen van geavanceerde multimodale redeneermodellen. Onze code is beschikbaar op https://github.com/waltonfuture/RL-with-Cold-Start.
English
Recent advancements in large language models (LLMs) have demonstrated
impressive chain-of-thought reasoning capabilities, with reinforcement learning
(RL) playing a crucial role in this progress. While "aha moment"
patterns--where models exhibit self-correction through reflection--are often
attributed to emergent properties from RL, we first demonstrate that these
patterns exist in multimodal LLMs (MLLMs) prior to RL training but may not
necessarily correlate with improved reasoning performance. Building on these
insights, we present a comprehensive study on enhancing multimodal reasoning
through a two-stage approach: (1) supervised fine-tuning (SFT) as a cold start
with structured chain-of-thought reasoning patterns, followed by (2)
reinforcement learning via GRPO to further refine these capabilities. Our
extensive experiments show that this combined approach consistently outperforms
both SFT-only and RL-only methods across challenging multimodal reasoning
benchmarks. The resulting models achieve state-of-the-art performance among
open-source MLLMs at both 3B and 7B scales, with our 7B model showing
substantial improvements over base models (e.g., 66.3 %rightarrow73.4 % on
MathVista, 62.9 %rightarrow70.4 % on We-Math) and our 3B model achieving
performance competitive with several 7B models. Overall, this work provides
practical guidance for building advanced multimodal reasoning models. Our code
is available at https://github.com/waltonfuture/RL-with-Cold-Start.