MMFineReason: Schließung der multimodalen Reasoning-Lücke durch offene datenzentrierte Methoden
MMFineReason: Closing the Multimodal Reasoning Gap via Open Data-Centric Methods
January 29, 2026
papers.authors: Honglin Lin, Zheng Liu, Yun Zhu, Chonghan Qin, Juekai Lin, Xiaoran Shang, Conghui He, Wentao Zhang, Lijun Wu
cs.AI
papers.abstract
Jüngste Fortschritte bei visuell-sprachlichen Modellen (VLM) haben bedeutende Verbesserungen im Bereich des visuellen Denkens vorangetrieben. Allerdings hinken Open-Source-VLMs proprietären Systemen noch hinterher, was hauptsächlich auf den Mangel an hochwertigen Daten für Denkprozesse zurückzuführen ist. Bestehende Datensätze bieten nur eine begrenzte Abdeckung anspruchsvoller Bereiche wie STEM-Diagramme und visuelle Rätsel und verfügen nicht über konsistente, langfristige Chain-of-Thought (CoT)-Annotationen, die für die Entwicklung starker Denkfähigkeiten entscheidend sind. Um diese Lücke zu schließen, stellen wir MMFineReason vor, einen groß angelegten multimodalen Denkdatensatz mit 1,8 Millionen Stichproben und 5,1 Milliarden Lösungstokens, der hochwertige Denkannotationen enthält, die aus Qwen3-VL-235B-A22B-Thinking destilliert wurden. Der Datensatz wurde durch einen systematischen Drei-Stufen-Prozess erstellt: (1) groß angelegte Datensammlung und -standardisierung, (2) CoT-Begründungsgenerierung und (3) umfassende Auswahl basierend auf Denkqualität und Schwierigkeitsbewusstsein. Der resultierende Datensatz umfasst STEM-Probleme, visuelle Rätsel, Spiele und komplexe Diagramme, wobei jede Stichprobe mit visuell fundierten Denkspuren annotiert ist. Wir feintunen Qwen3-VL-Instruct auf MMFineReason, um die MMFineReason-2B/4B/8B-Versionen zu entwickeln. Unsere Modelle erzielen neue state-of-the-art Ergebnisse für ihre Größenklasse. Bemerkenswerterweise übertrifft MMFineReason-4B erfolgreich Qwen3-VL-8B-Thinking, und MMFineReason-8B übertrifft sogar Qwen3-VL-30B-A3B-Thinking und nähert sich Qwen3-VL-32B-Thinking an, was eine bemerkenswerte Parameter-Effizienz demonstriert. Entscheidend ist, dass wir durch unsere schwierigkeitsbewusste Filterstrategie ein "Weniger ist mehr"-Phänomen aufdecken: Eine Teilmenge von nur 7 % (123.000 Stichproben) erreicht eine Leistung, die mit dem vollständigen Datensatz vergleichbar ist. Darüber hinaus zeigen wir einen synergetischen Effekt, bei dem eine auf Denkprozesse ausgerichtete Datenzusammensetzung gleichzeitig die allgemeinen Fähigkeiten steigert.
English
Recent advances in Vision Language Models (VLMs) have driven significant progress in visual reasoning. However, open-source VLMs still lag behind proprietary systems, largely due to the lack of high-quality reasoning data. Existing datasets offer limited coverage of challenging domains such as STEM diagrams and visual puzzles, and lack consistent, long-form Chain-of-Thought (CoT) annotations essential for eliciting strong reasoning capabilities. To bridge this gap, we introduce MMFineReason, a large-scale multimodal reasoning dataset comprising 1.8M samples and 5.1B solution tokens, featuring high-quality reasoning annotations distilled from Qwen3-VL-235B-A22B-Thinking. The dataset is established via a systematic three-stage pipeline: (1) large-scale data collection and standardization, (2) CoT rationale generation, and (3) comprehensive selection based on reasoning quality and difficulty awareness. The resulting dataset spans STEM problems, visual puzzles, games, and complex diagrams, with each sample annotated with visually grounded reasoning traces. We fine-tune Qwen3-VL-Instruct on MMFineReason to develop MMFineReason-2B/4B/8B versions. Our models establish new state-of-the-art results for their size class. Notably, MMFineReason-4B succesfully surpasses Qwen3-VL-8B-Thinking, and MMFineReason-8B even outperforms Qwen3-VL-30B-A3B-Thinking while approaching Qwen3-VL-32B-Thinking, demonstrating remarkable parameter efficiency. Crucially, we uncover a "less is more" phenomenon via our difficulty-aware filtering strategy: a subset of just 7\% (123K samples) achieves performance comparable to the full dataset. Notably, we reveal a synergistic effect where reasoning-oriented data composition simultaneously boosts general capabilities.