Progrès dans le raisonnement multimodal via l'apprentissage par renforcement avec démarrage à froid
Advancing Multimodal Reasoning via Reinforcement Learning with Cold Start
May 28, 2025
Auteurs: Lai Wei, Yuting Li, Kaipeng Zheng, Chen Wang, Yue Wang, Linghe Kong, Lichao Sun, Weiran Huang
cs.AI
Résumé
Les récents progrès des grands modèles de langage (LLMs) ont démontré des capacités impressionnantes de raisonnement en chaîne de pensée, où l'apprentissage par renforcement (RL) joue un rôle crucial dans cette avancée. Bien que les modèles de "moment eurêka"—où les modèles s'auto-corrigent par réflexion—soient souvent attribués à des propriétés émergentes du RL, nous montrons d'abord que ces modèles existent dans les LLMs multimodaux (MLLMs) avant l'entraînement au RL, mais ne sont pas nécessairement corrélés à une amélioration des performances de raisonnement. Sur la base de ces observations, nous présentons une étude approfondie sur l'amélioration du raisonnement multimodal grâce à une approche en deux étapes : (1) un réglage fin supervisé (SFT) comme démarrage à froid avec des modèles structurés de raisonnement en chaîne de pensée, suivi de (2) l'apprentissage par renforcement via GRPO pour affiner davantage ces capacités. Nos expériences approfondies montrent que cette approche combinée surpasse systématiquement les méthodes utilisant uniquement le SFT ou le RL sur des benchmarks exigeants de raisonnement multimodal. Les modèles résultants atteignent des performances de pointe parmi les MLLMs open-source aux échelles de 3B et 7B, avec notre modèle 7B montrant des améliorations substantielles par rapport aux modèles de base (par exemple, 66,3 % → 73,4 % sur MathVista, 62,9 % → 70,4 % sur We-Math) et notre modèle 3B atteignant des performances comparables à plusieurs modèles 7B. Globalement, ce travail fournit des conseils pratiques pour la construction de modèles de raisonnement multimodal avancés. Notre code est disponible à l'adresse https://github.com/waltonfuture/RL-with-Cold-Start.
English
Recent advancements in large language models (LLMs) have demonstrated
impressive chain-of-thought reasoning capabilities, with reinforcement learning
(RL) playing a crucial role in this progress. While "aha moment"
patterns--where models exhibit self-correction through reflection--are often
attributed to emergent properties from RL, we first demonstrate that these
patterns exist in multimodal LLMs (MLLMs) prior to RL training but may not
necessarily correlate with improved reasoning performance. Building on these
insights, we present a comprehensive study on enhancing multimodal reasoning
through a two-stage approach: (1) supervised fine-tuning (SFT) as a cold start
with structured chain-of-thought reasoning patterns, followed by (2)
reinforcement learning via GRPO to further refine these capabilities. Our
extensive experiments show that this combined approach consistently outperforms
both SFT-only and RL-only methods across challenging multimodal reasoning
benchmarks. The resulting models achieve state-of-the-art performance among
open-source MLLMs at both 3B and 7B scales, with our 7B model showing
substantial improvements over base models (e.g., 66.3 %rightarrow73.4 % on
MathVista, 62.9 %rightarrow70.4 % on We-Math) and our 3B model achieving
performance competitive with several 7B models. Overall, this work provides
practical guidance for building advanced multimodal reasoning models. Our code
is available at https://github.com/waltonfuture/RL-with-Cold-Start.Summary
AI-Generated Summary