ChatPaper.aiChatPaper

OpenMMReasoner : Repousser les frontières du raisonnement multimodal avec une recette ouverte et générale

OpenMMReasoner: Pushing the Frontiers for Multimodal Reasoning with an Open and General Recipe

November 20, 2025
papers.authors: Kaichen Zhang, Keming Wu, Zuhao Yang, Kairui Hu, Bin Wang, Ziwei Liu, Xingxuan Li, Lidong Bing
cs.AI

papers.abstract

Les avancées récentes dans les modèles de raisonnement à grande échelle ont suscité un intérêt croissant pour l'extension de ces capacités aux domaines multimodaux. Cependant, malgré des progrès notables dans le raisonnement visuel, le manque de stratégies transparentes et reproductibles pour la curation des données et l'entraînement reste un obstacle majeur à la recherche évolutive. Dans ce travail, nous présentons OpenMMReasoner, une méthode entièrement transparente en deux étapes pour le raisonnement multimodal, couvrant le réglage fin supervisé (SFT) et l'apprentissage par renforcement (RL). Dans l'étape SFT, nous construisons un ensemble de données de démarrage à froid de 874 000 échantillons avec une validation rigoureuse étape par étape, fournissant une base solide pour les capacités de raisonnement. L'étape RL suivante exploite un ensemble de données de 74 000 échantillons couvrant divers domaines pour affiner et stabiliser davantage ces capacités, aboutissant à un processus d'apprentissage plus robuste et efficace. Des évaluations approfondies démontrent que notre méthode d'entraînement dépasse non seulement des bases de référence solides, mais met également en lumière le rôle crucial de la qualité des données et de la conception de l'entraînement dans la performance du raisonnement multimodal. Notamment, notre méthode obtient une amélioration de 11,6 % par rapport à la base de référence Qwen2.5-VL-7B-Instruct sur neuf benchmarks de raisonnement multimodal, établissant une base empirique solide pour les futures recherches à grande échelle sur le raisonnement multimodal. Nous avons rendu publics tous nos codes, pipelines et données sur https://github.com/EvolvingLMMs-Lab/OpenMMReasoner.
English
Recent advancements in large reasoning models have fueled growing interest in extending such capabilities to multimodal domains. However, despite notable progress in visual reasoning, the lack of transparent and reproducible data curation and training strategies remains a major barrier to scalable research. In this work, we introduce OpenMMReasoner, a fully transparent two-stage recipe for multimodal reasoning spanning supervised fine-tuning (SFT) and reinforcement learning (RL). In the SFT stage, we construct an 874K-sample cold-start dataset with rigorous step-by-step validation, providing a strong foundation for reasoning capabilities. The subsequent RL stage leverages a 74K-sample dataset across diverse domains to further sharpen and stabilize these abilities, resulting in a more robust and efficient learning process. Extensive evaluations demonstrate that our training recipe not only surpasses strong baselines but also highlights the critical role of data quality and training design in shaping multimodal reasoning performance. Notably, our method achieves a 11.6% improvement over the Qwen2.5-VL-7B-Instruct baseline across nine multimodal reasoning benchmarks, establishing a solid empirical foundation for future large-scale multimodal reasoning research. We open-sourced all our codes, pipeline, and data at https://github.com/EvolvingLMMs-Lab/OpenMMReasoner.
PDF741November 25, 2025