ChatPaper.aiChatPaper

MM-Eureka: Esplorazione del Momento "Aha" Visivo con Apprendimento per Rinforzo su Larga Scala Basato su Regole

MM-Eureka: Exploring Visual Aha Moment with Rule-based Large-scale Reinforcement Learning

March 10, 2025
Autori: Fanqing Meng, Lingxiao Du, Zongkai Liu, Zhixiang Zhou, Quanfeng Lu, Daocheng Fu, Botian Shi, Wenhai Wang, Junjun He, Kaipeng Zhang, Ping Luo, Yu Qiao, Qiaosheng Zhang, Wenqi Shao
cs.AI

Abstract

Presentiamo MM-Eureka, un modello di ragionamento multimodale che estende con successo l'apprendimento per rinforzo (RL) basato su regole su larga scala al ragionamento multimodale. Sebbene l'RL basato su regole abbia dimostrato un notevole successo nel migliorare le capacità di ragionamento dei modelli linguistici di grandi dimensioni (LLMs) nei domini testuali, la sua applicazione in contesti multimodali è rimasta una sfida. Il nostro lavoro riproduce le caratteristiche chiave dei sistemi RL basati su testo, come DeepSeek-R1, nello spazio multimodale, includendo aumenti costanti nella ricompensa per l'accuratezza e nella lunghezza delle risposte, nonché l'emergere di comportamenti di riflessione. Dimostriamo che sia i modelli ottimizzati per istruzioni che quelli pre-addestrati possono sviluppare forti capacità di ragionamento multimodale attraverso l'RL basato su regole senza una messa a punto supervisionata, mostrando una superiorità in termini di efficienza dei dati rispetto ad approcci alternativi. Rendiamo disponibile l'intera pipeline in open source per favorire ulteriori ricerche in questo ambito. Rilasciamo tutti i nostri codici, modelli, dati, ecc. su https://github.com/ModalMinds/MM-EUREKA.
English
We present MM-Eureka, a multimodal reasoning model that successfully extends large-scale rule-based reinforcement learning (RL) to multimodal reasoning. While rule-based RL has shown remarkable success in improving LLMs' reasoning abilities in text domains, its application to multimodal settings has remained challenging. Our work reproduces key characteristics of text-based RL systems like DeepSeek-R1 in the multimodal space, including steady increases in accuracy reward and response length, and the emergence of reflection behaviors. We demonstrate that both instruction-tuned and pre-trained models can develop strong multimodal reasoning capabilities through rule-based RL without supervised fine-tuning, showing superior data efficiency compared to alternative approaches. We open-source our complete pipeline to foster further research in this area. We release all our codes, models, data, etc. at https://github.com/ModalMinds/MM-EUREKA

Summary

AI-Generated Summary

PDF602March 11, 2025