MM-Eureka : Exploration du moment Eurêka visuel grâce à l'apprentissage par renforcement à grande échelle basé sur des règles
MM-Eureka: Exploring Visual Aha Moment with Rule-based Large-scale Reinforcement Learning
March 10, 2025
Auteurs: Fanqing Meng, Lingxiao Du, Zongkai Liu, Zhixiang Zhou, Quanfeng Lu, Daocheng Fu, Botian Shi, Wenhai Wang, Junjun He, Kaipeng Zhang, Ping Luo, Yu Qiao, Qiaosheng Zhang, Wenqi Shao
cs.AI
Résumé
Nous présentons MM-Eureka, un modèle de raisonnement multimodal qui étend avec succès l'apprentissage par renforcement (RL) basé sur des règles à grande échelle au raisonnement multimodal. Bien que le RL basé sur des règles ait démontré un succès remarquable dans l'amélioration des capacités de raisonnement des LLMs dans les domaines textuels, son application aux contextes multimodaux est restée difficile. Notre travail reproduit les caractéristiques clés des systèmes RL basés sur le texte, comme DeepSeek-R1, dans l'espace multimodal, incluant des augmentations régulières de la récompense en précision et de la longueur des réponses, ainsi que l'émergence de comportements de réflexion. Nous démontrons que les modèles ajustés par instruction et pré-entraînés peuvent développer de solides capacités de raisonnement multimodal grâce au RL basé sur des règles sans ajustement supervisé, montrant une efficacité supérieure en termes de données par rapport aux approches alternatives. Nous ouvrons l'accès à notre pipeline complet pour encourager davantage de recherches dans ce domaine. Nous publions tous nos codes, modèles, données, etc. à l'adresse https://github.com/ModalMinds/MM-EUREKA.
English
We present MM-Eureka, a multimodal reasoning model that successfully extends
large-scale rule-based reinforcement learning (RL) to multimodal reasoning.
While rule-based RL has shown remarkable success in improving LLMs' reasoning
abilities in text domains, its application to multimodal settings has remained
challenging. Our work reproduces key characteristics of text-based RL systems
like DeepSeek-R1 in the multimodal space, including steady increases in
accuracy reward and response length, and the emergence of reflection behaviors.
We demonstrate that both instruction-tuned and pre-trained models can develop
strong multimodal reasoning capabilities through rule-based RL without
supervised fine-tuning, showing superior data efficiency compared to
alternative approaches. We open-source our complete pipeline to foster further
research in this area. We release all our codes, models, data, etc. at
https://github.com/ModalMinds/MM-EUREKASummary
AI-Generated Summary