MM-Eureka: 규칙 기반 대규모 강화 학습을 통한 시각적 통찰 순간 탐구
MM-Eureka: Exploring Visual Aha Moment with Rule-based Large-scale Reinforcement Learning
March 10, 2025
저자: Fanqing Meng, Lingxiao Du, Zongkai Liu, Zhixiang Zhou, Quanfeng Lu, Daocheng Fu, Botian Shi, Wenhai Wang, Junjun He, Kaipeng Zhang, Ping Luo, Yu Qiao, Qiaosheng Zhang, Wenqi Shao
cs.AI
초록
우리는 대규모 규칙 기반 강화 학습(RL)을 다중 모달 추론으로 성공적으로 확장한 다중 모달 추론 모델인 MM-Eureka를 소개합니다. 규칙 기반 RL은 텍스트 영역에서 대형 언어 모델(LLM)의 추론 능력을 향상시키는 데 있어 놀라운 성과를 보여왔지만, 다중 모달 환경에 적용하는 것은 여전히 어려운 과제로 남아 있었습니다. 우리의 연구는 DeepSeek-R1과 같은 텍스트 기반 RL 시스템의 주요 특징을 다중 모달 공간에서 재현하며, 이에는 정확도 보상과 응답 길이의 꾸준한 증가, 그리고 반성 행동의 출현 등이 포함됩니다. 우리는 지시 튜닝된 모델과 사전 학습된 모델 모두가 지도 미세 조정 없이 규칙 기반 RL을 통해 강력한 다중 모달 추론 능력을 개발할 수 있음을 보여주며, 이는 대안적 접근 방식에 비해 우수한 데이터 효율성을 보입니다. 우리는 이 분야의 추가 연구를 촉진하기 위해 전체 파이프라인을 오픈소스로 공개합니다. 모든 코드, 모델, 데이터 등을 https://github.com/ModalMinds/MM-EUREKA에서 공개합니다.
English
We present MM-Eureka, a multimodal reasoning model that successfully extends
large-scale rule-based reinforcement learning (RL) to multimodal reasoning.
While rule-based RL has shown remarkable success in improving LLMs' reasoning
abilities in text domains, its application to multimodal settings has remained
challenging. Our work reproduces key characteristics of text-based RL systems
like DeepSeek-R1 in the multimodal space, including steady increases in
accuracy reward and response length, and the emergence of reflection behaviors.
We demonstrate that both instruction-tuned and pre-trained models can develop
strong multimodal reasoning capabilities through rule-based RL without
supervised fine-tuning, showing superior data efficiency compared to
alternative approaches. We open-source our complete pipeline to foster further
research in this area. We release all our codes, models, data, etc. at
https://github.com/ModalMinds/MM-EUREKASummary
AI-Generated Summary