Fortschritt im multimodalen Denken durch Reinforcement Learning mit Kaltstart
Advancing Multimodal Reasoning via Reinforcement Learning with Cold Start
May 28, 2025
Autoren: Lai Wei, Yuting Li, Kaipeng Zheng, Chen Wang, Yue Wang, Linghe Kong, Lichao Sun, Weiran Huang
cs.AI
Zusammenfassung
Jüngste Fortschritte bei großen Sprachmodellen (LLMs) haben beeindruckende Fähigkeiten zur Kettenfolge-Argumentation (Chain-of-Thought Reasoning) gezeigt, wobei das Reinforcement Learning (RL) eine entscheidende Rolle in diesem Fortschritt spielt. Während „Aha-Moment“-Muster – bei denen Modelle durch Reflexion Selbstkorrekturen zeigen – oft auf emergente Eigenschaften des RL zurückgeführt werden, zeigen wir zunächst, dass diese Muster in multimodalen LLMs (MLLMs) bereits vor dem RL-Training existieren, jedoch nicht zwangsläufig mit einer verbesserten Argumentationsleistung korrelieren. Aufbauend auf diesen Erkenntnissen präsentieren wir eine umfassende Studie zur Verbesserung der multimodalen Argumentation durch einen zweistufigen Ansatz: (1) überwachtes Feinabstimmen (Supervised Fine-Tuning, SFT) als Kaltstart mit strukturierten Kettenfolge-Argumentationsmustern, gefolgt von (2) Reinforcement Learning via GRPO zur weiteren Verfeinerung dieser Fähigkeiten. Unsere umfangreichen Experimente zeigen, dass dieser kombinierte Ansatz sowohl SFT-only- als auch RL-only-Methoden in anspruchsvollen multimodalen Argumentations-Benchmarks konsequent übertrifft. Die resultierenden Modelle erzielen state-of-the-art-Leistungen unter Open-Source-MLLMs sowohl im 3B- als auch im 7B-Maßstab, wobei unser 7B-Modell erhebliche Verbesserungen gegenüber den Basismodellen zeigt (z. B. 66,3 % → 73,4 % bei MathVista, 62,9 % → 70,4 % bei We-Math) und unser 3B-Modell eine Leistung erreicht, die mit mehreren 7B-Modellen konkurrieren kann. Insgesamt bietet diese Arbeit praktische Leitlinien für den Aufbau fortschrittlicher multimodaler Argumentationsmodelle. Unser Code ist verfügbar unter https://github.com/waltonfuture/RL-with-Cold-Start.
English
Recent advancements in large language models (LLMs) have demonstrated
impressive chain-of-thought reasoning capabilities, with reinforcement learning
(RL) playing a crucial role in this progress. While "aha moment"
patterns--where models exhibit self-correction through reflection--are often
attributed to emergent properties from RL, we first demonstrate that these
patterns exist in multimodal LLMs (MLLMs) prior to RL training but may not
necessarily correlate with improved reasoning performance. Building on these
insights, we present a comprehensive study on enhancing multimodal reasoning
through a two-stage approach: (1) supervised fine-tuning (SFT) as a cold start
with structured chain-of-thought reasoning patterns, followed by (2)
reinforcement learning via GRPO to further refine these capabilities. Our
extensive experiments show that this combined approach consistently outperforms
both SFT-only and RL-only methods across challenging multimodal reasoning
benchmarks. The resulting models achieve state-of-the-art performance among
open-source MLLMs at both 3B and 7B scales, with our 7B model showing
substantial improvements over base models (e.g., 66.3 %rightarrow73.4 % on
MathVista, 62.9 %rightarrow70.4 % on We-Math) and our 3B model achieving
performance competitive with several 7B models. Overall, this work provides
practical guidance for building advanced multimodal reasoning models. Our code
is available at https://github.com/waltonfuture/RL-with-Cold-Start.Summary
AI-Generated Summary