ChatPaper.aiChatPaper

OpenMMReasoner: Erweiterung der Grenzen des multimodalen Denkens mit einem offenen und allgemeinen Ansatz

OpenMMReasoner: Pushing the Frontiers for Multimodal Reasoning with an Open and General Recipe

November 20, 2025
papers.authors: Kaichen Zhang, Keming Wu, Zuhao Yang, Kairui Hu, Bin Wang, Ziwei Liu, Xingxuan Li, Lidong Bing
cs.AI

papers.abstract

Jüngste Fortschritte bei großen Reasoning-Modellen haben das zunehmende Interesse geweckt, solche Fähigkeiten auf multimodale Domänen auszudehnen. Trotz bemerkenswerter Fortschritte im Bereich des visuellen Reasonings bleibt der Mangel an transparenter und reproduzierbarer Datenkuratierung und Trainingsstrategien ein wesentliches Hindernis für skalierbare Forschung. In dieser Arbeit stellen wir OpenMMReasoner vor, ein vollständig transparentes zweistufiges Rezept für multimodales Reasoning, das überwachtes Fein-Tuning (SFT) und Reinforcement Learning (RL) umfasst. In der SFT-Phase konstruieren wir einen Cold-Start-Datensatz mit 874.000 Proben, der durch eine rigorose schrittweise Validierung gestützt wird und eine solide Grundlage für Reasoning-Fähigkeiten bietet. Die anschließende RL-Phase nutzt einen 74.000 Proben umfassenden Datensatz aus verschiedenen Domänen, um diese Fähigkeiten weiter zu schärfen und zu stabilisieren, was zu einem robusteren und effizienteren Lernprozess führt. Umfangreiche Evaluierungen zeigen, dass unser Trainingsrezept nicht nur starke Baselines übertrifft, sondern auch die entscheidende Rolle der Datenqualität und des Trainingsdesigns bei der Gestaltung der multimodalen Reasoning-Leistung hervorhebt. Bemerkenswerterweise erzielt unsere Methode eine Verbesserung von 11,6 % gegenüber der Qwen2.5-VL-7B-Instruct-Baseline über neun multimodale Reasoning-Benchmarks hinweg und legt damit eine solide empirische Grundlage für zukünftige groß angelegte multimodale Reasoning-Forschung. Wir haben alle unsere Codes, Pipelines und Daten unter https://github.com/EvolvingLMMs-Lab/OpenMMReasoner quelloffen zur Verfügung gestellt.
English
Recent advancements in large reasoning models have fueled growing interest in extending such capabilities to multimodal domains. However, despite notable progress in visual reasoning, the lack of transparent and reproducible data curation and training strategies remains a major barrier to scalable research. In this work, we introduce OpenMMReasoner, a fully transparent two-stage recipe for multimodal reasoning spanning supervised fine-tuning (SFT) and reinforcement learning (RL). In the SFT stage, we construct an 874K-sample cold-start dataset with rigorous step-by-step validation, providing a strong foundation for reasoning capabilities. The subsequent RL stage leverages a 74K-sample dataset across diverse domains to further sharpen and stabilize these abilities, resulting in a more robust and efficient learning process. Extensive evaluations demonstrate that our training recipe not only surpasses strong baselines but also highlights the critical role of data quality and training design in shaping multimodal reasoning performance. Notably, our method achieves a 11.6% improvement over the Qwen2.5-VL-7B-Instruct baseline across nine multimodal reasoning benchmarks, establishing a solid empirical foundation for future large-scale multimodal reasoning research. We open-sourced all our codes, pipeline, and data at https://github.com/EvolvingLMMs-Lab/OpenMMReasoner.
PDF741November 25, 2025