OpenMMReasoner: Spingere le Frontiere del Ragionamento Multimodale con una Ricetta Aperta e Generale
OpenMMReasoner: Pushing the Frontiers for Multimodal Reasoning with an Open and General Recipe
November 20, 2025
Autori: Kaichen Zhang, Keming Wu, Zuhao Yang, Kairui Hu, Bin Wang, Ziwei Liu, Xingxuan Li, Lidong Bing
cs.AI
Abstract
I recenti progressi nei modelli di ragionamento su larga scala hanno alimentato un crescente interesse nell'estendere tali capacità a domini multimodali. Tuttavia, nonostante i notevoli avanzamenti nel ragionamento visivo, la mancanza di strategie trasparenti e riproducibili per la curatela dei dati e l'addestramento rimane una barriera significativa per la ricerca scalabile. In questo lavoro, presentiamo OpenMMReasoner, una ricetta completamente trasparente in due fasi per il ragionamento multimodale, che comprende il fine-tuning supervisionato (SFT) e l'apprendimento per rinforzo (RL). Nella fase SFT, costruiamo un dataset di avvio a freddo composto da 874K campioni con una rigorosa validazione passo-passo, fornendo una solida base per le capacità di ragionamento. La successiva fase RL sfrutta un dataset di 74K campioni in diversi domini per affinare e stabilizzare ulteriormente queste abilità, risultando in un processo di apprendimento più robusto ed efficiente. Valutazioni estensive dimostrano che la nostra ricetta di addestramento non solo supera i forti benchmark, ma evidenzia anche il ruolo cruciale della qualità dei dati e del design dell'addestramento nel modellare le prestazioni del ragionamento multimodale. In particolare, il nostro metodo raggiunge un miglioramento dell'11,6% rispetto al baseline Qwen2.5-VL-7B-Instruct su nove benchmark di ragionamento multimodale, stabilendo una solida base empirica per la futura ricerca su larga scala nel ragionamento multimodale. Abbiamo reso open-source tutti i nostri codici, pipeline e dati all'indirizzo https://github.com/EvolvingLMMs-Lab/OpenMMReasoner.
English
Recent advancements in large reasoning models have fueled growing interest in extending such capabilities to multimodal domains. However, despite notable progress in visual reasoning, the lack of transparent and reproducible data curation and training strategies remains a major barrier to scalable research. In this work, we introduce OpenMMReasoner, a fully transparent two-stage recipe for multimodal reasoning spanning supervised fine-tuning (SFT) and reinforcement learning (RL). In the SFT stage, we construct an 874K-sample cold-start dataset with rigorous step-by-step validation, providing a strong foundation for reasoning capabilities. The subsequent RL stage leverages a 74K-sample dataset across diverse domains to further sharpen and stabilize these abilities, resulting in a more robust and efficient learning process. Extensive evaluations demonstrate that our training recipe not only surpasses strong baselines but also highlights the critical role of data quality and training design in shaping multimodal reasoning performance. Notably, our method achieves a 11.6% improvement over the Qwen2.5-VL-7B-Instruct baseline across nine multimodal reasoning benchmarks, establishing a solid empirical foundation for future large-scale multimodal reasoning research. We open-sourced all our codes, pipeline, and data at https://github.com/EvolvingLMMs-Lab/OpenMMReasoner.