ChatPaper.aiChatPaper

MM-Eureka : Exploration du moment Eurêka visuel grâce à l'apprentissage par renforcement à grande échelle basé sur des règles

MM-Eureka: Exploring Visual Aha Moment with Rule-based Large-scale Reinforcement Learning

March 10, 2025
Auteurs: Fanqing Meng, Lingxiao Du, Zongkai Liu, Zhixiang Zhou, Quanfeng Lu, Daocheng Fu, Botian Shi, Wenhai Wang, Junjun He, Kaipeng Zhang, Ping Luo, Yu Qiao, Qiaosheng Zhang, Wenqi Shao
cs.AI

Résumé

Nous présentons MM-Eureka, un modèle de raisonnement multimodal qui étend avec succès l'apprentissage par renforcement (RL) basé sur des règles à grande échelle au raisonnement multimodal. Bien que le RL basé sur des règles ait démontré un succès remarquable dans l'amélioration des capacités de raisonnement des LLMs dans les domaines textuels, son application aux contextes multimodaux est restée difficile. Notre travail reproduit les caractéristiques clés des systèmes RL basés sur le texte, comme DeepSeek-R1, dans l'espace multimodal, incluant des augmentations régulières de la récompense en précision et de la longueur des réponses, ainsi que l'émergence de comportements de réflexion. Nous démontrons que les modèles ajustés par instruction et pré-entraînés peuvent développer de solides capacités de raisonnement multimodal grâce au RL basé sur des règles sans ajustement supervisé, montrant une efficacité supérieure en termes de données par rapport aux approches alternatives. Nous ouvrons l'accès à notre pipeline complet pour encourager davantage de recherches dans ce domaine. Nous publions tous nos codes, modèles, données, etc. à l'adresse https://github.com/ModalMinds/MM-EUREKA.
English
We present MM-Eureka, a multimodal reasoning model that successfully extends large-scale rule-based reinforcement learning (RL) to multimodal reasoning. While rule-based RL has shown remarkable success in improving LLMs' reasoning abilities in text domains, its application to multimodal settings has remained challenging. Our work reproduces key characteristics of text-based RL systems like DeepSeek-R1 in the multimodal space, including steady increases in accuracy reward and response length, and the emergence of reflection behaviors. We demonstrate that both instruction-tuned and pre-trained models can develop strong multimodal reasoning capabilities through rule-based RL without supervised fine-tuning, showing superior data efficiency compared to alternative approaches. We open-source our complete pipeline to foster further research in this area. We release all our codes, models, data, etc. at https://github.com/ModalMinds/MM-EUREKA

Summary

AI-Generated Summary

PDF602March 11, 2025