ChatPaper.aiChatPaper

Progrès dans le raisonnement multimodal : de l'optimisation du démarrage à froid à l'apprentissage par renforcement par étapes

Advancing Multimodal Reasoning: From Optimized Cold Start to Staged Reinforcement Learning

June 4, 2025
Auteurs: Shuang Chen, Yue Guo, Zhaochen Su, Yafu Li, Yulun Wu, Jiacheng Chen, Jiayu Chen, Weijie Wang, Xiaoye Qu, Yu Cheng
cs.AI

Résumé

Inspirés par les remarquables capacités de raisonnement de Deepseek-R1 dans des tâches textuelles complexes, de nombreux travaux tentent d’encourager des capacités similaires dans les Modèles de Langage Multimodaux de Grande Taille (MLLMs) en appliquant directement l’apprentissage par renforcement (RL). Cependant, ils peinent encore à activer un raisonnement complexe. Dans cet article, plutôt que d’examiner le RL multimodal de manière isolée, nous explorons les pipelines d’entraînement actuels et identifions trois phénomènes cruciaux : 1) Une initialisation efficace au démarrage à froid est essentielle pour améliorer le raisonnement des MLLMs. De manière intrigante, nous constatons qu’une initialisation avec des données textuelles soigneusement sélectionnées peut conduire à des performances surpassant de nombreux modèles récents de raisonnement multimodal, même avant l’application du RL multimodal. 2) Le GRPO standard appliqué au RL multimodal souffre d’une stagnation des gradients, ce qui dégrade la stabilité et les performances de l’entraînement. 3) Un entraînement RL ultérieur basé uniquement sur le texte, après la phase de RL multimodal, améliore encore le raisonnement multimodal. Cette approche d’entraînement par étapes équilibre efficacement l’ancrage perceptuel et le développement du raisonnement cognitif. En intégrant ces observations et en résolvant les problèmes du RL multimodal, nous présentons ReVisual-R1, qui établit un nouvel état de l’art parmi les MLLMs open-source de 7B sur des benchmarks exigeants, notamment MathVerse, MathVision, WeMath, LogicVista, DynaMath, ainsi que les défis AIME2024 et AIME2025.
English
Inspired by the remarkable reasoning capabilities of Deepseek-R1 in complex textual tasks, many works attempt to incentivize similar capabilities in Multimodal Large Language Models (MLLMs) by directly applying reinforcement learning (RL). However, they still struggle to activate complex reasoning. In this paper, rather than examining multimodal RL in isolation, we delve into current training pipelines and identify three crucial phenomena: 1) Effective cold start initialization is critical for enhancing MLLM reasoning. Intriguingly, we find that initializing with carefully selected text data alone can lead to performance surpassing many recent multimodal reasoning models, even before multimodal RL. 2) Standard GRPO applied to multimodal RL suffers from gradient stagnation, which degrades training stability and performance. 3) Subsequent text-only RL training, following the multimodal RL phase, further enhances multimodal reasoning. This staged training approach effectively balances perceptual grounding and cognitive reasoning development. By incorporating the above insights and addressing multimodal RL issues, we introduce ReVisual-R1, achieving a new state-of-the-art among open-source 7B MLLMs on challenging benchmarks including MathVerse, MathVision, WeMath, LogicVista, DynaMath, and challenging AIME2024 and AIME2025.
PDF424June 5, 2025