MMFineReason: データ中心のオープン手法によるマルチモーダル推論ギャップの解消
MMFineReason: Closing the Multimodal Reasoning Gap via Open Data-Centric Methods
January 29, 2026
著者: Honglin Lin, Zheng Liu, Yun Zhu, Chonghan Qin, Juekai Lin, Xiaoran Shang, Conghui He, Wentao Zhang, Lijun Wu
cs.AI
要旨
視覚言語モデル(VLM)の最近の進歩は、視覚的推論において著しい発展をもたらしています。しかし、オープンソースのVLMは依然としてプロプライエタリシステムに後れを取っており、その主な要因は高品質な推論データの不足にあります。既存のデータセットは、STEM図表や視覚パズルなどの難易度の高い領域の網羅性が限られており、強力な推論能力を引き出すために不可欠な一貫性のある長文の連鎖的思考(CoT)アノテーションを欠いています。このギャップを埋めるため、私たちは大規模マルチモーダル推論データセット「MMFineReason」を導入します。このデータセットは180万サンプル、51億ソリューショントークンから構成され、Qwen3-VL-235B-A22B-Thinkingから抽出した高品質な推論アノテーションを特徴としています。
データセットは体系的な3段階パイプラインを通じて構築されました:(1)大規模データ収集と標準化、(2)CoT理論的根拠の生成、(3)推論品質と難易度認識に基づく包括的な選別。結果として得られたデータセットはSTEM問題、視覚パズル、ゲーム、複雑な図表を網羅し、各サンプルには視覚に基づいた推論トレースが注釈付けられています。
私たちはQwen3-VL-InstructをMMFineReasonでファインチューニングし、MMFineReason-2B/4B/8Bバージョンを開発しました。これらのモデルは、そのサイズクラスにおいて新たな最先端の結果を確立しています。特に、MMFineReason-4BはQwen3-VL-8B-Thinkingを成功裏に上回り、MMFineReason-8BはQwen3-VL-30B-A3B-Thinkingを凌駕し、Qwen3-VL-32B-Thinkingに迫る性能を示し、驚異的なパラメータ効率を実証しました。
重要なことに、難易度認識フィルタリング戦略を通じて「より少ないことはより多いこと」という現象を明らかにしました:わずか7%(12万3千サンプル)のサブセットで、フルデータセットと同等の性能を達成しています。さらに、推論指向のデータ構成が一般能力を同時に向上させる相乗効果があることも明らかになりました。
English
Recent advances in Vision Language Models (VLMs) have driven significant progress in visual reasoning. However, open-source VLMs still lag behind proprietary systems, largely due to the lack of high-quality reasoning data. Existing datasets offer limited coverage of challenging domains such as STEM diagrams and visual puzzles, and lack consistent, long-form Chain-of-Thought (CoT) annotations essential for eliciting strong reasoning capabilities. To bridge this gap, we introduce MMFineReason, a large-scale multimodal reasoning dataset comprising 1.8M samples and 5.1B solution tokens, featuring high-quality reasoning annotations distilled from Qwen3-VL-235B-A22B-Thinking. The dataset is established via a systematic three-stage pipeline: (1) large-scale data collection and standardization, (2) CoT rationale generation, and (3) comprehensive selection based on reasoning quality and difficulty awareness. The resulting dataset spans STEM problems, visual puzzles, games, and complex diagrams, with each sample annotated with visually grounded reasoning traces. We fine-tune Qwen3-VL-Instruct on MMFineReason to develop MMFineReason-2B/4B/8B versions. Our models establish new state-of-the-art results for their size class. Notably, MMFineReason-4B succesfully surpasses Qwen3-VL-8B-Thinking, and MMFineReason-8B even outperforms Qwen3-VL-30B-A3B-Thinking while approaching Qwen3-VL-32B-Thinking, demonstrating remarkable parameter efficiency. Crucially, we uncover a "less is more" phenomenon via our difficulty-aware filtering strategy: a subset of just 7\% (123K samples) achieves performance comparable to the full dataset. Notably, we reveal a synergistic effect where reasoning-oriented data composition simultaneously boosts general capabilities.