MM-Eureka: Esplorazione del Momento "Aha" Visivo con Apprendimento per Rinforzo su Larga Scala Basato su Regole
MM-Eureka: Exploring Visual Aha Moment with Rule-based Large-scale Reinforcement Learning
March 10, 2025
Autori: Fanqing Meng, Lingxiao Du, Zongkai Liu, Zhixiang Zhou, Quanfeng Lu, Daocheng Fu, Botian Shi, Wenhai Wang, Junjun He, Kaipeng Zhang, Ping Luo, Yu Qiao, Qiaosheng Zhang, Wenqi Shao
cs.AI
Abstract
Presentiamo MM-Eureka, un modello di ragionamento multimodale che estende con successo l'apprendimento per rinforzo (RL) basato su regole su larga scala al ragionamento multimodale. Sebbene l'RL basato su regole abbia dimostrato un notevole successo nel migliorare le capacità di ragionamento dei modelli linguistici di grandi dimensioni (LLMs) nei domini testuali, la sua applicazione in contesti multimodali è rimasta una sfida. Il nostro lavoro riproduce le caratteristiche chiave dei sistemi RL basati su testo, come DeepSeek-R1, nello spazio multimodale, includendo aumenti costanti nella ricompensa per l'accuratezza e nella lunghezza delle risposte, nonché l'emergere di comportamenti di riflessione. Dimostriamo che sia i modelli ottimizzati per istruzioni che quelli pre-addestrati possono sviluppare forti capacità di ragionamento multimodale attraverso l'RL basato su regole senza una messa a punto supervisionata, mostrando una superiorità in termini di efficienza dei dati rispetto ad approcci alternativi. Rendiamo disponibile l'intera pipeline in open source per favorire ulteriori ricerche in questo ambito. Rilasciamo tutti i nostri codici, modelli, dati, ecc. su https://github.com/ModalMinds/MM-EUREKA.
English
We present MM-Eureka, a multimodal reasoning model that successfully extends
large-scale rule-based reinforcement learning (RL) to multimodal reasoning.
While rule-based RL has shown remarkable success in improving LLMs' reasoning
abilities in text domains, its application to multimodal settings has remained
challenging. Our work reproduces key characteristics of text-based RL systems
like DeepSeek-R1 in the multimodal space, including steady increases in
accuracy reward and response length, and the emergence of reflection behaviors.
We demonstrate that both instruction-tuned and pre-trained models can develop
strong multimodal reasoning capabilities through rule-based RL without
supervised fine-tuning, showing superior data efficiency compared to
alternative approaches. We open-source our complete pipeline to foster further
research in this area. We release all our codes, models, data, etc. at
https://github.com/ModalMinds/MM-EUREKASummary
AI-Generated Summary