MM-Eureka: Explorando el momento "¡Ajá!" visual con aprendizaje por refuerzo a gran escala basado en reglas
MM-Eureka: Exploring Visual Aha Moment with Rule-based Large-scale Reinforcement Learning
March 10, 2025
Autores: Fanqing Meng, Lingxiao Du, Zongkai Liu, Zhixiang Zhou, Quanfeng Lu, Daocheng Fu, Botian Shi, Wenhai Wang, Junjun He, Kaipeng Zhang, Ping Luo, Yu Qiao, Qiaosheng Zhang, Wenqi Shao
cs.AI
Resumen
Presentamos MM-Eureka, un modelo de razonamiento multimodal que extiende exitosamente el aprendizaje por refuerzo (RL) basado en reglas a gran escala al razonamiento multimodal. Si bien el RL basado en reglas ha demostrado un éxito notable en mejorar las capacidades de razonamiento de los LLMs en dominios textuales, su aplicación en entornos multimodales ha seguido siendo un desafío. Nuestro trabajo reproduce características clave de los sistemas de RL basados en texto, como DeepSeek-R1, en el espacio multimodal, incluyendo aumentos constantes en la recompensa de precisión y la longitud de las respuestas, así como la aparición de comportamientos de reflexión. Demostramos que tanto los modelos ajustados por instrucción como los preentrenados pueden desarrollar fuertes capacidades de razonamiento multimodal a través del RL basado en reglas sin necesidad de ajuste fino supervisado, mostrando una eficiencia de datos superior en comparación con enfoques alternativos. Hacemos público nuestro pipeline completo para fomentar más investigaciones en esta área. Liberamos todos nuestros códigos, modelos, datos, etc. en https://github.com/ModalMinds/MM-EUREKA.
English
We present MM-Eureka, a multimodal reasoning model that successfully extends
large-scale rule-based reinforcement learning (RL) to multimodal reasoning.
While rule-based RL has shown remarkable success in improving LLMs' reasoning
abilities in text domains, its application to multimodal settings has remained
challenging. Our work reproduces key characteristics of text-based RL systems
like DeepSeek-R1 in the multimodal space, including steady increases in
accuracy reward and response length, and the emergence of reflection behaviors.
We demonstrate that both instruction-tuned and pre-trained models can develop
strong multimodal reasoning capabilities through rule-based RL without
supervised fine-tuning, showing superior data efficiency compared to
alternative approaches. We open-source our complete pipeline to foster further
research in this area. We release all our codes, models, data, etc. at
https://github.com/ModalMinds/MM-EUREKASummary
AI-Generated Summary