OpenMMReasoner: Expandindo as Fronteiras do Raciocínio Multimodal com uma Receita Aberta e Geral
OpenMMReasoner: Pushing the Frontiers for Multimodal Reasoning with an Open and General Recipe
November 20, 2025
Autores: Kaichen Zhang, Keming Wu, Zuhao Yang, Kairui Hu, Bin Wang, Ziwei Liu, Xingxuan Li, Lidong Bing
cs.AI
Resumo
Os recentes avanços em modelos de raciocínio de grande escala têm impulsionado um interesse crescente em estender tais capacidades para domínios multimodais. No entanto, apesar do progresso notável no raciocínio visual, a falta de estratégias transparentes e reproduzíveis de curadoria de dados e treinamento continua sendo uma barreira significativa para pesquisas escaláveis. Neste trabalho, apresentamos o OpenMMReasoner, uma abordagem totalmente transparente em duas etapas para raciocínio multimodal, abrangendo ajuste fino supervisionado (SFT) e aprendizado por reforço (RL). Na etapa de SFT, construímos um conjunto de dados inicial de 874 mil amostras com validação rigorosa passo a passo, fornecendo uma base sólida para capacidades de raciocínio. A etapa subsequente de RL utiliza um conjunto de dados de 74 mil amostras em diversos domínios para aprimorar e estabilizar ainda mais essas habilidades, resultando em um processo de aprendizado mais robusto e eficiente. Avaliações extensivas demonstram que nossa abordagem de treinamento não apenas supera linhas de base robustas, mas também destaca o papel crítico da qualidade dos dados e do design de treinamento na formação do desempenho do raciocínio multimodal. Notavelmente, nosso método alcança uma melhoria de 11,6% em relação à linha de base Qwen2.5-VL-7B-Instrutor em nove benchmarks de raciocínio multimodal, estabelecendo uma base empírica sólida para futuras pesquisas em grande escala sobre raciocínio multimodal. Disponibilizamos todos os nossos códigos, pipeline e dados em https://github.com/EvolvingLMMs-Lab/OpenMMReasoner.
English
Recent advancements in large reasoning models have fueled growing interest in extending such capabilities to multimodal domains. However, despite notable progress in visual reasoning, the lack of transparent and reproducible data curation and training strategies remains a major barrier to scalable research. In this work, we introduce OpenMMReasoner, a fully transparent two-stage recipe for multimodal reasoning spanning supervised fine-tuning (SFT) and reinforcement learning (RL). In the SFT stage, we construct an 874K-sample cold-start dataset with rigorous step-by-step validation, providing a strong foundation for reasoning capabilities. The subsequent RL stage leverages a 74K-sample dataset across diverse domains to further sharpen and stabilize these abilities, resulting in a more robust and efficient learning process. Extensive evaluations demonstrate that our training recipe not only surpasses strong baselines but also highlights the critical role of data quality and training design in shaping multimodal reasoning performance. Notably, our method achieves a 11.6% improvement over the Qwen2.5-VL-7B-Instruct baseline across nine multimodal reasoning benchmarks, establishing a solid empirical foundation for future large-scale multimodal reasoning research. We open-sourced all our codes, pipeline, and data at https://github.com/EvolvingLMMs-Lab/OpenMMReasoner.