ChatPaper.aiChatPaper

OpenMMReasoner: 개방적이고 일반적인 레시피로 다중모드 추론의 한계를 넘어서기

OpenMMReasoner: Pushing the Frontiers for Multimodal Reasoning with an Open and General Recipe

November 20, 2025
저자: Kaichen Zhang, Keming Wu, Zuhao Yang, Kairui Hu, Bin Wang, Ziwei Liu, Xingxuan Li, Lidong Bing
cs.AI

초록

대규모 추론 모델의 최근 발전은 이러한 능력을 다중모달 영역으로 확장하려는 관심을 고조시키고 있습니다. 그러나 시각적 추론 분야에서의 주목할 만한 진전에도 불구하고, 투명하고 재현 가능한 데이터 큐레이션 및 훈련 전략의 부족은 확장 가능한 연구의 주요 장벽으로 남아 있습니다. 본 연구에서는 지도 미세조정(Supervised Fine-Tuning, SFT)과 강화 학습(Reinforcement Learning, RL)을 아우르는 완전히 투명한 2단계 다중모달 추론 레시피인 OpenMMReasoner를 소개합니다. SFT 단계에서는 엄격한 단계별 검증을 통해 874K 샘플의 콜드 스타트 데이터셋을 구축하여 추론 능력의 견고한 기반을 제공합니다. 이후 RL 단계에서는 다양한 도메인에 걸친 74K 샘플 데이터셋을 활용하여 이러한 능력을 더욱 예리하고 안정적으로 다듬어, 더욱 견고하고 효율적인 학습 과정을 구현합니다. 광범위한 평가를 통해 우리의 훈련 레시피가 강력한 베이스라인을 능가할 뿐만 아니라, 다중모달 추론 성능을 형성하는 데 있어 데이터 품질과 훈련 설계의 중요성을 부각시킴을 입증했습니다. 특히, 우리의 방법은 9개의 다중모달 추론 벤치마크에서 Qwen2.5-VL-7B-Instruct 베이스라인 대비 11.6%의 성능 향상을 달성하여, 향후 대규모 다중모달 추론 연구를 위한 견고한 실증적 기반을 마련했습니다. 우리는 모든 코드, 파이프라인 및 데이터를 https://github.com/EvolvingLMMs-Lab/OpenMMReasoner에서 오픈소스로 공개했습니다.
English
Recent advancements in large reasoning models have fueled growing interest in extending such capabilities to multimodal domains. However, despite notable progress in visual reasoning, the lack of transparent and reproducible data curation and training strategies remains a major barrier to scalable research. In this work, we introduce OpenMMReasoner, a fully transparent two-stage recipe for multimodal reasoning spanning supervised fine-tuning (SFT) and reinforcement learning (RL). In the SFT stage, we construct an 874K-sample cold-start dataset with rigorous step-by-step validation, providing a strong foundation for reasoning capabilities. The subsequent RL stage leverages a 74K-sample dataset across diverse domains to further sharpen and stabilize these abilities, resulting in a more robust and efficient learning process. Extensive evaluations demonstrate that our training recipe not only surpasses strong baselines but also highlights the critical role of data quality and training design in shaping multimodal reasoning performance. Notably, our method achieves a 11.6% improvement over the Qwen2.5-VL-7B-Instruct baseline across nine multimodal reasoning benchmarks, establishing a solid empirical foundation for future large-scale multimodal reasoning research. We open-sourced all our codes, pipeline, and data at https://github.com/EvolvingLMMs-Lab/OpenMMReasoner.
PDF741November 25, 2025