LMM-R1 : Renforcer les capacités de raisonnement des LMM de 3B grâce à un apprentissage par renforcement en deux étapes basé sur des règles
LMM-R1: Empowering 3B LMMs with Strong Reasoning Abilities Through Two-Stage Rule-Based RL
March 10, 2025
Auteurs: Yingzhe Peng, Gongrui Zhang, Miaosen Zhang, Zhiyuan You, Jie Liu, Qipeng Zhu, Kai Yang, Xingzhong Xu, Xin Geng, Xu Yang
cs.AI
Résumé
L'amélioration du raisonnement dans les modèles multimodaux de grande taille (LMM) rencontre des défis uniques liés à l'interaction complexe entre la perception visuelle et le raisonnement logique, en particulier dans les architectures compactes de 3 milliards de paramètres où les contraintes architecturales limitent la capacité de raisonnement et l'alignement des modalités.
Alors que l'apprentissage par renforcement basé sur des règles (RL) excelle dans les domaines textuels purs, son extension multimodale se heurte à deux obstacles critiques : (1) les limitations de données dues à des réponses ambiguës et à la rareté d'exemples de raisonnement complexe, et (2) la dégradation du raisonnement fondamental induite par le prétraitement multimodal.
Pour relever ces défis, nous proposons \method, un cadre en deux étapes adaptant le RL basé sur des règles pour le raisonnement multimodal grâce à un Renforcement du Raisonnement Fondamental (FRE) suivi d'un Entraînement à la Généralisation Multimodale (MGT). L'étape FRE renforce d'abord les capacités de raisonnement en utilisant des données textuelles avec le RL basé sur des règles, puis l'étape MGT généralise ces capacités de raisonnement aux domaines multimodaux.
Les expériences sur Qwen2.5-VL-Instruct-3B montrent que \method obtient des améliorations moyennes de 4,83 % et 4,5 % par rapport aux modèles de référence dans les benchmarks multimodaux et textuels purs, respectivement, avec un gain de 3,63 % dans les tâches complexes de Football Game. Ces résultats valident que le renforcement du raisonnement basé sur le texte permet une généralisation multimodale efficace, offrant un paradigme économe en données qui contourne le besoin coûteux de données d'entraînement multimodales de haute qualité.
English
Enhancing reasoning in Large Multimodal Models (LMMs) faces unique challenges
from the complex interplay between visual perception and logical reasoning,
particularly in compact 3B-parameter architectures where architectural
constraints limit reasoning capacity and modality alignment.
While rule-based reinforcement learning (RL) excels in text-only domains, its
multimodal extension confronts two critical barriers: (1) data limitations due
to ambiguous answers and scarce complex reasoning examples, and (2) degraded
foundational reasoning induced by multimodal pretraining.
To address these challenges, we propose \method, a two-stage
framework adapting rule-based RL for multimodal reasoning through
Foundational Reasoning Enhancement (FRE) followed by
Multimodal Generalization Training (MGT). The FRE stage first
strengthens reasoning abilities using text-only data with rule-based RL, then
the MGT stage generalizes these reasoning capabilities to multimodal domains.
Experiments on Qwen2.5-VL-Instruct-3B demonstrate that \method achieves
4.83\% and 4.5\% average improvements over baselines in multimodal and
text-only benchmarks, respectively, with a 3.63\% gain in complex Football Game
tasks. These results validate that text-based reasoning enhancement enables
effective multimodal generalization, offering a data-efficient paradigm that
bypasses costly high-quality multimodal training data.Summary
AI-Generated Summary