MMFineReason : Combler l'écart de raisonnement multimodal grâce à des méthodes ouvertes centrées sur les données
MMFineReason: Closing the Multimodal Reasoning Gap via Open Data-Centric Methods
January 29, 2026
papers.authors: Honglin Lin, Zheng Liu, Yun Zhu, Chonghan Qin, Juekai Lin, Xiaoran Shang, Conghui He, Wentao Zhang, Lijun Wu
cs.AI
papers.abstract
Les récents progrès des modèles de vision et langage (VLM) ont considérablement fait avancer le raisonnement visuel. Cependant, les VLM open-source restent à la traîne des systèmes propriétaires, en grande partie à cause du manque de données de raisonnement de haute qualité. Les jeux de données existants offrent une couverture limitée de domaines complexes tels que les diagrammes STEM et les énigmes visuelles, et manquent d'annotations cohérentes et détaillées de type Chaîne de Pensée (CoT), essentielles pour développer de solides capacités de raisonnement. Pour combler cette lacune, nous présentons MMFineReason, un jeu de données de raisonnement multimodal à grande échelle comprenant 1,8 million d'échantillons et 5,1 milliards de tokens de solution, avec des annotations de raisonnement de haute qualité distillées à partir de Qwen3-VL-235B-A22B-Thinking. Le jeu de données est constitué via un pipeline systématique en trois étapes : (1) collecte et standardisation de données à grande échelle, (2) génération de justifications CoT, et (3) sélection complète basée sur la qualité du raisonnement et la prise en compte de la difficulté. Le jeu de données résultant couvre des problèmes STEM, des énigmes visuelles, des jeux et des diagrammes complexes, chaque échantillon étant annoté avec des traces de raisonnement ancrées visuellement. Nous avons effectué un apprentissage fin de Qwen3-VL-Instruct sur MMFineReason pour développer les versions MMFineReason-2B/4B/8B. Nos modèles établissent de nouveaux records pour leur catégorie de taille. Notamment, MMFineReason-4B dépasse avec succès Qwen3-VL-8B-Thinking, et MMFineReason-8B surpasse même Qwen3-VL-30B-A3B-Thinking tout en approchant les performances de Qwen3-VL-32B-Thinking, démontrant une remarquable efficacité paramétrique. Fait crucial, nous mettons en évidence un phénomène de « moins c'est plus » via notre stratégie de filtrage tenant compte de la difficulté : un sous-ensemble de seulement 7 % (123 000 échantillons) atteint des performances comparables à celles du jeu de données complet. De manière notable, nous révélons un effet synergique où la composition de données axée sur le raisonnement améliore simultanément les capacités générales.
English
Recent advances in Vision Language Models (VLMs) have driven significant progress in visual reasoning. However, open-source VLMs still lag behind proprietary systems, largely due to the lack of high-quality reasoning data. Existing datasets offer limited coverage of challenging domains such as STEM diagrams and visual puzzles, and lack consistent, long-form Chain-of-Thought (CoT) annotations essential for eliciting strong reasoning capabilities. To bridge this gap, we introduce MMFineReason, a large-scale multimodal reasoning dataset comprising 1.8M samples and 5.1B solution tokens, featuring high-quality reasoning annotations distilled from Qwen3-VL-235B-A22B-Thinking. The dataset is established via a systematic three-stage pipeline: (1) large-scale data collection and standardization, (2) CoT rationale generation, and (3) comprehensive selection based on reasoning quality and difficulty awareness. The resulting dataset spans STEM problems, visual puzzles, games, and complex diagrams, with each sample annotated with visually grounded reasoning traces. We fine-tune Qwen3-VL-Instruct on MMFineReason to develop MMFineReason-2B/4B/8B versions. Our models establish new state-of-the-art results for their size class. Notably, MMFineReason-4B succesfully surpasses Qwen3-VL-8B-Thinking, and MMFineReason-8B even outperforms Qwen3-VL-30B-A3B-Thinking while approaching Qwen3-VL-32B-Thinking, demonstrating remarkable parameter efficiency. Crucially, we uncover a "less is more" phenomenon via our difficulty-aware filtering strategy: a subset of just 7\% (123K samples) achieves performance comparable to the full dataset. Notably, we reveal a synergistic effect where reasoning-oriented data composition simultaneously boosts general capabilities.