Progrès dans le raisonnement multimodal via l'apprentissage par renforcement avec démarrage à froid

papers.abstract

Les récents progrès des grands modèles de langage (LLMs) ont démontré des capacités impressionnantes de raisonnement en chaîne de pensée, où l'apprentissage par renforcement (RL) joue un rôle crucial dans cette avancée. Bien que les modèles de "moment eurêka"—où les modèles s'auto-corrigent par réflexion—soient souvent attribués à des propriétés émergentes du RL, nous montrons d'abord que ces modèles existent dans les LLMs multimodaux (MLLMs) avant l'entraînement au RL, mais ne sont pas nécessairement corrélés à une amélioration des performances de raisonnement. Sur la base de ces observations, nous présentons une étude approfondie sur l'amélioration du raisonnement multimodal grâce à une approche en deux étapes : (1) un réglage fin supervisé (SFT) comme démarrage à froid avec des modèles structurés de raisonnement en chaîne de pensée, suivi de (2) l'apprentissage par renforcement via GRPO pour affiner davantage ces capacités. Nos expériences approfondies montrent que cette approche combinée surpasse systématiquement les méthodes utilisant uniquement le SFT ou le RL sur des benchmarks exigeants de raisonnement multimodal. Les modèles résultants atteignent des performances de pointe parmi les MLLMs open-source aux échelles de 3B et 7B, avec notre modèle 7B montrant des améliorations substantielles par rapport aux modèles de base (par exemple, 66,3 % → 73,4 % sur MathVista, 62,9 % → 70,4 % sur We-Math) et notre modèle 3B atteignant des performances comparables à plusieurs modèles 7B. Globalement, ce travail fournit des conseils pratiques pour la construction de modèles de raisonnement multimodal avancés. Notre code est disponible à l'adresse https://github.com/waltonfuture/RL-with-Cold-Start.

English

Recent advancements in large language models (LLMs) have demonstrated impressive chain-of-thought reasoning capabilities, with reinforcement learning (RL) playing a crucial role in this progress. While "aha moment" patterns--where models exhibit self-correction through reflection--are often attributed to emergent properties from RL, we first demonstrate that these patterns exist in multimodal LLMs (MLLMs) prior to RL training but may not necessarily correlate with improved reasoning performance. Building on these insights, we present a comprehensive study on enhancing multimodal reasoning through a two-stage approach: (1) supervised fine-tuning (SFT) as a cold start with structured chain-of-thought reasoning patterns, followed by (2) reinforcement learning via GRPO to further refine these capabilities. Our extensive experiments show that this combined approach consistently outperforms both SFT-only and RL-only methods across challenging multimodal reasoning benchmarks. The resulting models achieve state-of-the-art performance among open-source MLLMs at both 3B and 7B scales, with our 7B model showing substantial improvements over base models (e.g., 66.3 %rightarrow73.4 % on MathVista, 62.9 %rightarrow70.4 % on We-Math) and our 3B model achieving performance competitive with several 7B models. Overall, this work provides practical guidance for building advanced multimodal reasoning models. Our code is available at https://github.com/waltonfuture/RL-with-Cold-Start.

Progrès dans le raisonnement multimodal via l'apprentissage par renforcement avec démarrage à froid

Advancing Multimodal Reasoning via Reinforcement Learning with Cold Start

papers.abstract

Support