OpenMMReasoner: Расширение границ мультимодального анализа с использованием открытого и универсального подхода
OpenMMReasoner: Pushing the Frontiers for Multimodal Reasoning with an Open and General Recipe
November 20, 2025
Авторы: Kaichen Zhang, Keming Wu, Zuhao Yang, Kairui Hu, Bin Wang, Ziwei Liu, Xingxuan Li, Lidong Bing
cs.AI
Аннотация
Последние достижения в области крупных моделей логического вывода стимулировали растущий интерес к расширению таких возможностей на мультимодальные области. Однако, несмотря на заметный прогресс в визуальном логическом выводе, отсутствие прозрачных и воспроизводимых стратегий подготовки данных и обучения остается основным препятствием для масштабируемых исследований. В данной работе мы представляем OpenMMReasoner — полностью прозрачный двухэтапный подход для мультимодального логического вывода, охватывающий контролируемую тонкую настройку (SFT) и обучение с подкреплением (RL). На этапе SFT мы создаем набор данных из 874 тысяч примеров с тщательной пошаговой валидацией, что обеспечивает прочную основу для развития логических способностей. Последующий этап RL использует набор данных из 74 тысяч примеров в различных областях для дальнейшего улучшения и стабилизации этих способностей, что приводит к более устойчивому и эффективному процессу обучения. Масштабные оценки демонстрируют, что наш подход к обучению не только превосходит сильные базовые модели, но и подчеркивает критическую роль качества данных и дизайна обучения в формировании производительности мультимодального логического вывода. В частности, наш метод демонстрирует улучшение на 11,6% по сравнению с базовой моделью Qwen2.5-VL-7B-Instruct на девяти мультимодальных тестах логического вывода, устанавливая прочную эмпирическую основу для будущих исследований крупномасштабного мультимодального логического вывода. Мы открыли исходные коды, конвейер и данные на https://github.com/EvolvingLMMs-Lab/OpenMMReasoner.
English
Recent advancements in large reasoning models have fueled growing interest in extending such capabilities to multimodal domains. However, despite notable progress in visual reasoning, the lack of transparent and reproducible data curation and training strategies remains a major barrier to scalable research. In this work, we introduce OpenMMReasoner, a fully transparent two-stage recipe for multimodal reasoning spanning supervised fine-tuning (SFT) and reinforcement learning (RL). In the SFT stage, we construct an 874K-sample cold-start dataset with rigorous step-by-step validation, providing a strong foundation for reasoning capabilities. The subsequent RL stage leverages a 74K-sample dataset across diverse domains to further sharpen and stabilize these abilities, resulting in a more robust and efficient learning process. Extensive evaluations demonstrate that our training recipe not only surpasses strong baselines but also highlights the critical role of data quality and training design in shaping multimodal reasoning performance. Notably, our method achieves a 11.6% improvement over the Qwen2.5-VL-7B-Instruct baseline across nine multimodal reasoning benchmarks, establishing a solid empirical foundation for future large-scale multimodal reasoning research. We open-sourced all our codes, pipeline, and data at https://github.com/EvolvingLMMs-Lab/OpenMMReasoner.