MMFineReason: Het dichten van de multimodale redeneerkloof via open, data-centrische methoden

Samenvatting

Recente vooruitgang in Vision Language Models (VLM's) heeft aanzienlijke vooruitgang geboekt in visueel redeneren. Open-source VLM's blijven echter achter bij propriëtaire systemen, grotendeels door een gebrek aan hoogwaardige redeneergegevens. Bestaande datasets bieden een beperkte dekking van uitdagende domeinen zoals STEM-diagrammen en visuele puzzels, en missen consistente, langdradige Chain-of-Thought (CoT)-annotaties die essentieel zijn voor het ontlokken van sterke redeneervaardigheden. Om deze kloof te overbruggen, introduceren wij MMFineReason, een grootschalige multimodale redeneerdataset bestaande uit 1,8 miljoen samples en 5,1 miljard oplossingstokens, voorzien van hoogwaardige redeneerannotaties gedistilleerd uit Qwen3-VL-235B-A22B-Thinking. De dataset is opgezet via een systematische pijplijn in drie fasen: (1) grootschalige gegevensverzameling en standaardisatie, (2) CoT-redenatiegeneratie, en (3) uitgebreide selectie op basis van redeneerkwaliteit en moeilijkheidsbewustzijn. De resulterende dataset bestrijkt STEM-problemen, visuele puzzels, spelletjes en complexe diagrammen, waarbij elke sample is geannoteerd met visueel onderbouwde redeneersporen. Wij fine-tunen Qwen3-VL-Instruct op MMFineReason om MMFineReason-2B/4B/8B-versies te ontwikkelen. Onze modellen vestigen nieuwe state-of-the-art resultaten voor hun grootteklasse. Opmerkelijk is dat MMFineReason-4B met succes Qwen3-VL-8B-Thinking overtreft, en MMFineReason-8B zelfs presteert beter dan Qwen3-VL-30B-A3B-Thinking en Qwen3-VL-32B-Thinking benadert, wat een opmerkelijke parameter efficiëntie aantoont. Cruciaal is dat wij een "minder is meer"-fenomeen blootleggen via onze moeilijkheidsbewuste filterstrategie: een subset van slechts 7% (123.000 samples) bereikt een prestatieniveau vergelijkbaar met de volledige dataset. Opmerkelijk is dat wij een synergetisch effect onthullen waarbij een op redeneren gerichte datasamenstelling tegelijkertijd algemene capaciteiten versterkt.

English

Recent advances in Vision Language Models (VLMs) have driven significant progress in visual reasoning. However, open-source VLMs still lag behind proprietary systems, largely due to the lack of high-quality reasoning data. Existing datasets offer limited coverage of challenging domains such as STEM diagrams and visual puzzles, and lack consistent, long-form Chain-of-Thought (CoT) annotations essential for eliciting strong reasoning capabilities. To bridge this gap, we introduce MMFineReason, a large-scale multimodal reasoning dataset comprising 1.8M samples and 5.1B solution tokens, featuring high-quality reasoning annotations distilled from Qwen3-VL-235B-A22B-Thinking. The dataset is established via a systematic three-stage pipeline: (1) large-scale data collection and standardization, (2) CoT rationale generation, and (3) comprehensive selection based on reasoning quality and difficulty awareness. The resulting dataset spans STEM problems, visual puzzles, games, and complex diagrams, with each sample annotated with visually grounded reasoning traces. We fine-tune Qwen3-VL-Instruct on MMFineReason to develop MMFineReason-2B/4B/8B versions. Our models establish new state-of-the-art results for their size class. Notably, MMFineReason-4B succesfully surpasses Qwen3-VL-8B-Thinking, and MMFineReason-8B even outperforms Qwen3-VL-30B-A3B-Thinking while approaching Qwen3-VL-32B-Thinking, demonstrating remarkable parameter efficiency. Crucially, we uncover a "less is more" phenomenon via our difficulty-aware filtering strategy: a subset of just 7\% (123K samples) achieves performance comparable to the full dataset. Notably, we reveal a synergistic effect where reasoning-oriented data composition simultaneously boosts general capabilities.

MMFineReason: Het dichten van de multimodale redeneerkloof via open, data-centrische methoden

MMFineReason: Closing the Multimodal Reasoning Gap via Open Data-Centric Methods

Samenvatting

Support