ChatPaper.aiChatPaper

MM-Eureka: Explorando el momento "¡Ajá!" visual con aprendizaje por refuerzo a gran escala basado en reglas

MM-Eureka: Exploring Visual Aha Moment with Rule-based Large-scale Reinforcement Learning

March 10, 2025
Autores: Fanqing Meng, Lingxiao Du, Zongkai Liu, Zhixiang Zhou, Quanfeng Lu, Daocheng Fu, Botian Shi, Wenhai Wang, Junjun He, Kaipeng Zhang, Ping Luo, Yu Qiao, Qiaosheng Zhang, Wenqi Shao
cs.AI

Resumen

Presentamos MM-Eureka, un modelo de razonamiento multimodal que extiende exitosamente el aprendizaje por refuerzo (RL) basado en reglas a gran escala al razonamiento multimodal. Si bien el RL basado en reglas ha demostrado un éxito notable en mejorar las capacidades de razonamiento de los LLMs en dominios textuales, su aplicación en entornos multimodales ha seguido siendo un desafío. Nuestro trabajo reproduce características clave de los sistemas de RL basados en texto, como DeepSeek-R1, en el espacio multimodal, incluyendo aumentos constantes en la recompensa de precisión y la longitud de las respuestas, así como la aparición de comportamientos de reflexión. Demostramos que tanto los modelos ajustados por instrucción como los preentrenados pueden desarrollar fuertes capacidades de razonamiento multimodal a través del RL basado en reglas sin necesidad de ajuste fino supervisado, mostrando una eficiencia de datos superior en comparación con enfoques alternativos. Hacemos público nuestro pipeline completo para fomentar más investigaciones en esta área. Liberamos todos nuestros códigos, modelos, datos, etc. en https://github.com/ModalMinds/MM-EUREKA.
English
We present MM-Eureka, a multimodal reasoning model that successfully extends large-scale rule-based reinforcement learning (RL) to multimodal reasoning. While rule-based RL has shown remarkable success in improving LLMs' reasoning abilities in text domains, its application to multimodal settings has remained challenging. Our work reproduces key characteristics of text-based RL systems like DeepSeek-R1 in the multimodal space, including steady increases in accuracy reward and response length, and the emergence of reflection behaviors. We demonstrate that both instruction-tuned and pre-trained models can develop strong multimodal reasoning capabilities through rule-based RL without supervised fine-tuning, showing superior data efficiency compared to alternative approaches. We open-source our complete pipeline to foster further research in this area. We release all our codes, models, data, etc. at https://github.com/ModalMinds/MM-EUREKA

Summary

AI-Generated Summary

PDF602March 11, 2025