MM-Eureka: Het verkennen van visuele 'aha-momenten' met op regels gebaseerde grootschalige reinforcement learning
MM-Eureka: Exploring Visual Aha Moment with Rule-based Large-scale Reinforcement Learning
March 10, 2025
Auteurs: Fanqing Meng, Lingxiao Du, Zongkai Liu, Zhixiang Zhou, Quanfeng Lu, Daocheng Fu, Botian Shi, Wenhai Wang, Junjun He, Kaipeng Zhang, Ping Luo, Yu Qiao, Qiaosheng Zhang, Wenqi Shao
cs.AI
Samenvatting
We presenteren MM-Eureka, een multimodaal redeneermodel dat grootschalige, op regels gebaseerde reinforcement learning (RL) succesvol uitbreidt naar multimodaal redeneren. Hoewel op regels gebaseerde RL opmerkelijke successen heeft geboekt in het verbeteren van de redeneervaardigheden van LLM's in tekstuele domeinen, is de toepassing ervan in multimodale settings uitdagend gebleven. Ons werk reproduceert belangrijke kenmerken van op tekst gebaseerde RL-systemen zoals DeepSeek-R1 in de multimodale ruimte, waaronder gestage toename in nauwkeurigheidsbeloning en responslengte, en het ontstaan van reflectiegedrag. We tonen aan dat zowel instructie-getrainde als vooraf getrainde modellen sterke multimodale redeneervaardigheden kunnen ontwikkelen via op regels gebaseerde RL zonder begeleide fine-tuning, en daarbij superieure data-efficiëntie tonen in vergelijking met alternatieve benaderingen. We maken onze volledige pipeline open source om verder onderzoek op dit gebied te stimuleren. We geven al onze codes, modellen, data, etc. vrij op https://github.com/ModalMinds/MM-EUREKA.
English
We present MM-Eureka, a multimodal reasoning model that successfully extends
large-scale rule-based reinforcement learning (RL) to multimodal reasoning.
While rule-based RL has shown remarkable success in improving LLMs' reasoning
abilities in text domains, its application to multimodal settings has remained
challenging. Our work reproduces key characteristics of text-based RL systems
like DeepSeek-R1 in the multimodal space, including steady increases in
accuracy reward and response length, and the emergence of reflection behaviors.
We demonstrate that both instruction-tuned and pre-trained models can develop
strong multimodal reasoning capabilities through rule-based RL without
supervised fine-tuning, showing superior data efficiency compared to
alternative approaches. We open-source our complete pipeline to foster further
research in this area. We release all our codes, models, data, etc. at
https://github.com/ModalMinds/MM-EUREKASummary
AI-Generated Summary