MMFineReason: Colmare il Divario nel Ragionamento Multimodale tramite Metodi Aperti Basati sui Dati

Abstract

I recenti progressi nei Modelli Linguaggio-Visione (VLMs) hanno guidato avanzamenti significativi nel ragionamento visivo. Tuttavia, i VLMs open-source rimangono ancora indietro rispetto ai sistemi proprietari, principalmente a causa della mancanza di dati di ragionamento di alta qualità. I dataset esistenti offrono una copertura limitata di domini complessi come i diagrammi STEM e gli enigmi visivi, e mancano di annotazioni coerenti e di lunga durata di Catena del Pensiero (CoT), essenziali per elicitare forti capacità di ragionamento. Per colmare questa lacuna, introduciamo MMFineReason, un dataset su larga scala per il ragionamento multimodale che comprende 1,8 milioni di campioni e 5,1 miliardi di token di soluzione, caratterizzato da annotazioni di ragionamento di alta qualità distillate da Qwen3-VL-235B-A22B-Thinking. Il dataset è stato creato attraverso una pipeline sistematica in tre fasi: (1) raccolta e standardizzazione di dati su larga scala, (2) generazione di ragionamenti CoT, e (3) selezione completa basata sulla qualità del ragionamento e sulla consapevolezza della difficoltà. Il dataset risultante copre problemi STEM, enigmi visivi, giochi e diagrammi complessi, con ogni campione annotato con tracce di ragionamento visivamente fondate. Abbiamo effettuato il fine-tuning di Qwen3-VL-Instruct su MMFineReason per sviluppare le versioni MMFineReason-2B/4B/8B. I nostri modelli stabiliscono nuovi risultati state-of-the-art per la loro classe di dimensioni. Notevolmente, MMFineReason-4B supera con successo Qwen3-VL-8B-Thinking, e MMFineReason-8B addirittura supera le prestazioni di Qwen3-VL-30B-A3B-Thinking avvicinandosi a Qwen3-VL-32B-Thinking, dimostrando una notevole efficienza parametrica. Crucialmente, abbiamo scoperto un fenomeno del "meno è più" attraverso la nostra strategia di filtraggio basata sulla difficoltà: un sottoinsieme di appena il 7% (123.000 campioni) raggiunge prestazioni paragonabili al dataset completo. In modo significativo, riveliamo un effetto sinergico per cui la composizione dei dati orientata al ragionamento potenzia simultaneamente le capacità generali.

English

Recent advances in Vision Language Models (VLMs) have driven significant progress in visual reasoning. However, open-source VLMs still lag behind proprietary systems, largely due to the lack of high-quality reasoning data. Existing datasets offer limited coverage of challenging domains such as STEM diagrams and visual puzzles, and lack consistent, long-form Chain-of-Thought (CoT) annotations essential for eliciting strong reasoning capabilities. To bridge this gap, we introduce MMFineReason, a large-scale multimodal reasoning dataset comprising 1.8M samples and 5.1B solution tokens, featuring high-quality reasoning annotations distilled from Qwen3-VL-235B-A22B-Thinking. The dataset is established via a systematic three-stage pipeline: (1) large-scale data collection and standardization, (2) CoT rationale generation, and (3) comprehensive selection based on reasoning quality and difficulty awareness. The resulting dataset spans STEM problems, visual puzzles, games, and complex diagrams, with each sample annotated with visually grounded reasoning traces. We fine-tune Qwen3-VL-Instruct on MMFineReason to develop MMFineReason-2B/4B/8B versions. Our models establish new state-of-the-art results for their size class. Notably, MMFineReason-4B succesfully surpasses Qwen3-VL-8B-Thinking, and MMFineReason-8B even outperforms Qwen3-VL-30B-A3B-Thinking while approaching Qwen3-VL-32B-Thinking, demonstrating remarkable parameter efficiency. Crucially, we uncover a "less is more" phenomenon via our difficulty-aware filtering strategy: a subset of just 7\% (123K samples) achieves performance comparable to the full dataset. Notably, we reveal a synergistic effect where reasoning-oriented data composition simultaneously boosts general capabilities.

MMFineReason: Colmare il Divario nel Ragionamento Multimodale tramite Metodi Aperti Basati sui Dati

MMFineReason: Closing the Multimodal Reasoning Gap via Open Data-Centric Methods

Abstract

Support