ChatPaper.aiChatPaper

OpenMMReasoner: Avanzando las fronteras del razonamiento multimodal con una receta abierta y general

OpenMMReasoner: Pushing the Frontiers for Multimodal Reasoning with an Open and General Recipe

November 20, 2025
Autores: Kaichen Zhang, Keming Wu, Zuhao Yang, Kairui Hu, Bin Wang, Ziwei Liu, Xingxuan Li, Lidong Bing
cs.AI

Resumen

Los avances recientes en modelos de razonamiento a gran escala han impulsado un creciente interés en extender dichas capacidades a dominios multimodales. Sin embargo, a pesar del progreso notable en el razonamiento visual, la falta de estrategias transparentes y reproducibles para la curación de datos y el entrenamiento sigue siendo una barrera importante para la investigación escalable. En este trabajo, presentamos OpenMMReasoner, una receta completamente transparente de dos etapas para el razonamiento multimodal que abarca el ajuste fino supervisado (SFT) y el aprendizaje por refuerzo (RL). En la etapa de SFT, construimos un conjunto de datos de arranque en frío de 874K muestras con una validación rigurosa paso a paso, proporcionando una base sólida para las capacidades de razonamiento. La etapa posterior de RL aprovecha un conjunto de datos de 74K muestras en diversos dominios para afinar y estabilizar aún más estas habilidades, resultando en un proceso de aprendizaje más robusto y eficiente. Evaluaciones extensas demuestran que nuestra receta de entrenamiento no solo supera líneas de base sólidas, sino que también resalta el papel crítico de la calidad de los datos y el diseño del entrenamiento en el desempeño del razonamiento multimodal. Notablemente, nuestro método logra una mejora del 11.6% sobre la línea de base Qwen2.5-VL-7B-Instruct en nueve benchmarks de razonamiento multimodal, estableciendo una base empírica sólida para futuras investigaciones a gran escala en razonamiento multimodal. Hemos liberado todo nuestro código, pipeline y datos en https://github.com/EvolvingLMMs-Lab/OpenMMReasoner.
English
Recent advancements in large reasoning models have fueled growing interest in extending such capabilities to multimodal domains. However, despite notable progress in visual reasoning, the lack of transparent and reproducible data curation and training strategies remains a major barrier to scalable research. In this work, we introduce OpenMMReasoner, a fully transparent two-stage recipe for multimodal reasoning spanning supervised fine-tuning (SFT) and reinforcement learning (RL). In the SFT stage, we construct an 874K-sample cold-start dataset with rigorous step-by-step validation, providing a strong foundation for reasoning capabilities. The subsequent RL stage leverages a 74K-sample dataset across diverse domains to further sharpen and stabilize these abilities, resulting in a more robust and efficient learning process. Extensive evaluations demonstrate that our training recipe not only surpasses strong baselines but also highlights the critical role of data quality and training design in shaping multimodal reasoning performance. Notably, our method achieves a 11.6% improvement over the Qwen2.5-VL-7B-Instruct baseline across nine multimodal reasoning benchmarks, establishing a solid empirical foundation for future large-scale multimodal reasoning research. We open-sourced all our codes, pipeline, and data at https://github.com/EvolvingLMMs-Lab/OpenMMReasoner.
PDF741November 25, 2025