ChatPaper.aiChatPaper

MM-Eureka: Het verkennen van visuele 'aha-momenten' met op regels gebaseerde grootschalige reinforcement learning

MM-Eureka: Exploring Visual Aha Moment with Rule-based Large-scale Reinforcement Learning

March 10, 2025
Auteurs: Fanqing Meng, Lingxiao Du, Zongkai Liu, Zhixiang Zhou, Quanfeng Lu, Daocheng Fu, Botian Shi, Wenhai Wang, Junjun He, Kaipeng Zhang, Ping Luo, Yu Qiao, Qiaosheng Zhang, Wenqi Shao
cs.AI

Samenvatting

We presenteren MM-Eureka, een multimodaal redeneermodel dat grootschalige, op regels gebaseerde reinforcement learning (RL) succesvol uitbreidt naar multimodaal redeneren. Hoewel op regels gebaseerde RL opmerkelijke successen heeft geboekt in het verbeteren van de redeneervaardigheden van LLM's in tekstuele domeinen, is de toepassing ervan in multimodale settings uitdagend gebleven. Ons werk reproduceert belangrijke kenmerken van op tekst gebaseerde RL-systemen zoals DeepSeek-R1 in de multimodale ruimte, waaronder gestage toename in nauwkeurigheidsbeloning en responslengte, en het ontstaan van reflectiegedrag. We tonen aan dat zowel instructie-getrainde als vooraf getrainde modellen sterke multimodale redeneervaardigheden kunnen ontwikkelen via op regels gebaseerde RL zonder begeleide fine-tuning, en daarbij superieure data-efficiëntie tonen in vergelijking met alternatieve benaderingen. We maken onze volledige pipeline open source om verder onderzoek op dit gebied te stimuleren. We geven al onze codes, modellen, data, etc. vrij op https://github.com/ModalMinds/MM-EUREKA.
English
We present MM-Eureka, a multimodal reasoning model that successfully extends large-scale rule-based reinforcement learning (RL) to multimodal reasoning. While rule-based RL has shown remarkable success in improving LLMs' reasoning abilities in text domains, its application to multimodal settings has remained challenging. Our work reproduces key characteristics of text-based RL systems like DeepSeek-R1 in the multimodal space, including steady increases in accuracy reward and response length, and the emergence of reflection behaviors. We demonstrate that both instruction-tuned and pre-trained models can develop strong multimodal reasoning capabilities through rule-based RL without supervised fine-tuning, showing superior data efficiency compared to alternative approaches. We open-source our complete pipeline to foster further research in this area. We release all our codes, models, data, etc. at https://github.com/ModalMinds/MM-EUREKA

Summary

AI-Generated Summary

PDF602March 11, 2025