OpenMMReasoner: オープンで汎用的なレシピによるマルチモーダル推論のフロンティアを切り開く
OpenMMReasoner: Pushing the Frontiers for Multimodal Reasoning with an Open and General Recipe
November 20, 2025
著者: Kaichen Zhang, Keming Wu, Zuhao Yang, Kairui Hu, Bin Wang, Ziwei Liu, Xingxuan Li, Lidong Bing
cs.AI
要旨
大規模推論モデルの最近の進展により、その能力をマルチモーダル領域に拡張することに対する関心が高まっている。しかし、視覚的推論における顕著な進歩にもかかわらず、透明性と再現性のあるデータキュレーションおよびトレーニング戦略の欠如が、スケーラブルな研究の主要な障壁となっている。本研究では、教師ありファインチューニング(SFT)と強化学習(RL)にまたがるマルチモーダル推論のための完全に透明な2段階のレシピであるOpenMMReasonerを紹介する。SFT段階では、厳密なステップバイステップの検証を経て構築された874Kサンプルのコールドスタートデータセットを提供し、推論能力の強固な基盤を築く。続くRL段階では、多様な領域にわたる74Kサンプルのデータセットを活用してこれらの能力をさらに研ぎ澄まし、安定化させることで、より堅牢で効率的な学習プロセスを実現する。広範な評価により、我々のトレーニングレシピが強力なベースラインを上回るだけでなく、データ品質とトレーニング設計がマルチモーダル推論性能を形成する上で重要な役割を果たすことが明らかになった。特に、我々の手法は、9つのマルチモーダル推論ベンチマークにおいてQwen2.5-VL-7B-Instructベースラインに対して11.6%の改善を達成し、将来の大規模マルチモーダル推論研究のための確固たる経験的基盤を確立した。我々は、すべてのコード、パイプライン、およびデータをhttps://github.com/EvolvingLMMs-Lab/OpenMMReasonerでオープンソース化した。
English
Recent advancements in large reasoning models have fueled growing interest in extending such capabilities to multimodal domains. However, despite notable progress in visual reasoning, the lack of transparent and reproducible data curation and training strategies remains a major barrier to scalable research. In this work, we introduce OpenMMReasoner, a fully transparent two-stage recipe for multimodal reasoning spanning supervised fine-tuning (SFT) and reinforcement learning (RL). In the SFT stage, we construct an 874K-sample cold-start dataset with rigorous step-by-step validation, providing a strong foundation for reasoning capabilities. The subsequent RL stage leverages a 74K-sample dataset across diverse domains to further sharpen and stabilize these abilities, resulting in a more robust and efficient learning process. Extensive evaluations demonstrate that our training recipe not only surpasses strong baselines but also highlights the critical role of data quality and training design in shaping multimodal reasoning performance. Notably, our method achieves a 11.6% improvement over the Qwen2.5-VL-7B-Instruct baseline across nine multimodal reasoning benchmarks, establishing a solid empirical foundation for future large-scale multimodal reasoning research. We open-sourced all our codes, pipeline, and data at https://github.com/EvolvingLMMs-Lab/OpenMMReasoner.