MMFineReason: 개방형 데이터 중심 방법을 통한 멀티모달 추론 격차 해결
MMFineReason: Closing the Multimodal Reasoning Gap via Open Data-Centric Methods
January 29, 2026
저자: Honglin Lin, Zheng Liu, Yun Zhu, Chonghan Qin, Juekai Lin, Xiaoran Shang, Conghui He, Wentao Zhang, Lijun Wu
cs.AI
초록
비전 언어 모델(VLM)의 최근 발전은 시각적 추론 분야에서 상당한 진전을 이끌어왔습니다. 그러나 오픈소스 VLM은 여전히 독점 시스템에 뒤처져 있는데, 이는 주로 고품질 추론 데이터의 부족 때문입니다. 기존 데이터셋은 STEM 다이어그램이나 시각적 퍼즐과 같은 도전적인 영역의 Coverage가 제한적이며, 강력한 추론 능력을 이끌어내는 데 필수적인 일관된 장문의 사고 연쇄(CoT) 주해를 제공하지 못합니다. 이러한 격차를 해소하기 위해 우리는 Qwen3-VL-235B-A22B-Thinking에서 추출한 고품질 추론 주해를 특징으로 하는 180만 개 샘플과 51억 개의 솔루션 토큰으로 구성된 대규모 멀티모달 추론 데이터셋인 MMFineReason을 소개합니다. 이 데이터셋은 체계적인 3단계 파이프라인을 통해 구축되었습니다: (1) 대규모 데이터 수집 및 표준화, (2) CoT 근거 생성, (3) 추론 품질 및 난이도 인식 기반의 포괄적 선택. 결과적으로 생성된 데이터셋은 STEM 문제, 시각적 퍼즐, 게임, 복잡한 다이어그램 등을 아우르며, 각 샘플은 시각적으로 근거가 명시된 추론 흔적(Reasoning Trace)으로 주해가 달려 있습니다. 우리는 MMFineReason 데이터셋으로 Qwen3-VL-Instruct를 미세 조정하여 MMFineReason-2B/4B/8B 버전을 개발했습니다. 우리 모델들은 해당 규모 등급에서 새로운 최첨단 성능을 기록했습니다. 특히, MMFineReason-4B는 Qwen3-VL-8B-Thinking를 성공적으로 능가했으며, MMFineReason-8B는 Qwen3-VL-30B-A3B-Thinking를 능가하고 Qwen3-VL-32B-Thinking에 근접하는 성능을 보여주어 놀라운 매개변수 효율성을 입증했습니다. 무엇보다도, 우리의 난이도 인식 필터링 전략을 통해 "적은 것이 더 많다"는 현상을 발견했습니다: 전체 데이터셋의 단 7%(12만 3천 개 샘플)에 해당하는 부분집합만으로도 전체 데이터셋과 비슷한 성능을 달성했습니다. 특히, 추론 중심 데이터 구성이 일반 능력까지 동시에 향상시키는 시너지 효과가 있음을 밝혔습니다.
English
Recent advances in Vision Language Models (VLMs) have driven significant progress in visual reasoning. However, open-source VLMs still lag behind proprietary systems, largely due to the lack of high-quality reasoning data. Existing datasets offer limited coverage of challenging domains such as STEM diagrams and visual puzzles, and lack consistent, long-form Chain-of-Thought (CoT) annotations essential for eliciting strong reasoning capabilities. To bridge this gap, we introduce MMFineReason, a large-scale multimodal reasoning dataset comprising 1.8M samples and 5.1B solution tokens, featuring high-quality reasoning annotations distilled from Qwen3-VL-235B-A22B-Thinking. The dataset is established via a systematic three-stage pipeline: (1) large-scale data collection and standardization, (2) CoT rationale generation, and (3) comprehensive selection based on reasoning quality and difficulty awareness. The resulting dataset spans STEM problems, visual puzzles, games, and complex diagrams, with each sample annotated with visually grounded reasoning traces. We fine-tune Qwen3-VL-Instruct on MMFineReason to develop MMFineReason-2B/4B/8B versions. Our models establish new state-of-the-art results for their size class. Notably, MMFineReason-4B succesfully surpasses Qwen3-VL-8B-Thinking, and MMFineReason-8B even outperforms Qwen3-VL-30B-A3B-Thinking while approaching Qwen3-VL-32B-Thinking, demonstrating remarkable parameter efficiency. Crucially, we uncover a "less is more" phenomenon via our difficulty-aware filtering strategy: a subset of just 7\% (123K samples) achieves performance comparable to the full dataset. Notably, we reveal a synergistic effect where reasoning-oriented data composition simultaneously boosts general capabilities.