OpenMMReasoner: Het Verleggen van Grenzen voor Multimodale Redenering met een Open en Algemene Aanpak
OpenMMReasoner: Pushing the Frontiers for Multimodal Reasoning with an Open and General Recipe
November 20, 2025
Auteurs: Kaichen Zhang, Keming Wu, Zuhao Yang, Kairui Hu, Bin Wang, Ziwei Liu, Xingxuan Li, Lidong Bing
cs.AI
Samenvatting
Recente vooruitgang in grote redeneermodellen heeft een groeiende interesse gewekt in het uitbreiden van dergelijke mogelijkheden naar multimodale domeinen. Ondanks opmerkelijke vooruitgang in visueel redeneren, blijft het gebrek aan transparante en reproduceerbare datacuratie- en trainingsstrategieën een grote barrière voor schaalbaar onderzoek. In dit werk introduceren we OpenMMReasoner, een volledig transparant tweestapsrecept voor multimodaal redeneren, bestaande uit supervised fine-tuning (SFT) en reinforcement learning (RL). In de SFT-fase construeren we een cold-start dataset van 874K samples met rigoureuze stap-voor-stap validatie, wat een sterke basis biedt voor redeneervaardigheden. De daaropvolgende RL-fase maakt gebruik van een dataset van 74K samples uit diverse domeinen om deze vaardigheden verder aan te scherpen en te stabiliseren, wat resulteert in een robuuster en efficiënter leerproces. Uitgebreide evaluaties tonen aan dat ons trainingsrecept niet alleen sterke baselines overtreft, maar ook de cruciale rol van data-kwaliteit en trainingsontwerp benadrukt bij het vormgeven van multimodaal redeneerprestaties. Opvallend is dat onze methode een verbetering van 11,6% behaalt ten opzichte van de Qwen2.5-VL-7B-Instruct baseline over negen multimodale redeneerbenchmarks, wat een solide empirische basis legt voor toekomstig grootschalig multimodaal redeneeronderzoek. We hebben al onze codes, pijplijn en data openbaar gemaakt op https://github.com/EvolvingLMMs-Lab/OpenMMReasoner.
English
Recent advancements in large reasoning models have fueled growing interest in extending such capabilities to multimodal domains. However, despite notable progress in visual reasoning, the lack of transparent and reproducible data curation and training strategies remains a major barrier to scalable research. In this work, we introduce OpenMMReasoner, a fully transparent two-stage recipe for multimodal reasoning spanning supervised fine-tuning (SFT) and reinforcement learning (RL). In the SFT stage, we construct an 874K-sample cold-start dataset with rigorous step-by-step validation, providing a strong foundation for reasoning capabilities. The subsequent RL stage leverages a 74K-sample dataset across diverse domains to further sharpen and stabilize these abilities, resulting in a more robust and efficient learning process. Extensive evaluations demonstrate that our training recipe not only surpasses strong baselines but also highlights the critical role of data quality and training design in shaping multimodal reasoning performance. Notably, our method achieves a 11.6% improvement over the Qwen2.5-VL-7B-Instruct baseline across nine multimodal reasoning benchmarks, establishing a solid empirical foundation for future large-scale multimodal reasoning research. We open-sourced all our codes, pipeline, and data at https://github.com/EvolvingLMMs-Lab/OpenMMReasoner.