ChatPaper.aiChatPaper

MMFineReason: Преодоление разрыва в мультимодальном рассуждении с помощью открытых методов, ориентированных на данные

MMFineReason: Closing the Multimodal Reasoning Gap via Open Data-Centric Methods

January 29, 2026
Авторы: Honglin Lin, Zheng Liu, Yun Zhu, Chonghan Qin, Juekai Lin, Xiaoran Shang, Conghui He, Wentao Zhang, Lijun Wu
cs.AI

Аннотация

Последние достижения в области визуально-языковых моделей (VLM) способствовали значительному прогрессу в области визуального мышления. Однако открытые VLM по-прежнему отстают от проприетарных систем, в основном из-за отсутствия высококачественных данных для рассуждений. Существующие наборы данных предлагают ограниченный охват сложных областей, таких как STEM-диаграммы и визуальные головоломки, и не имеют последовательных, развернутых аннотаций в формате "цепочки мыслей" (CoT), которые необходимы для выявления мощных способностей к рассуждению. Чтобы устранить этот пробел, мы представляем MMFineReason — крупномасштабный мультимодальный набор данных для рассуждений, содержащий 1,8 млн примеров и 5,1 млрд токенов решений, с высококачественными аннотациями рассуждений, извлеченными из Qwen3-VL-235B-A22B-Thinking. Набор данных создан с помощью системного трехэтапного конвейера: (1) массовый сбор и стандартизация данных, (2) генерация обоснований в формате CoT и (3) комплексный отбор на основе качества рассуждений и учета сложности. Результирующий набор данных охватывает STEM-задачи, визуальные головоломки, игры и сложные диаграммы, причем каждый пример снабжен визуально обоснованными трассировками рассуждений. Мы дообучили Qwen3-VL-Instruct на MMFineReason, чтобы создать версии MMFineReason-2B/4B/8B. Наши модели устанавливают новые state-of-the-art результаты для своего класса размеров. Примечательно, что MMFineReason-4B успешно превосходит Qwen3-VL-8B-Thinking, а MMFineReason-8B даже превосходит Qwen3-VL-30B-A3B-Thinking, приближаясь к результатам Qwen3-VL-32B-Thinking, что демонстрирует замечательную параметрическую эффективность. Ключевым моментом является открытие нами феномена "меньше — значит лучше" с помощью нашей стратегии фильтрации с учетом сложности: подмножество всего из 7% (123 тыс. примеров) достигает производительности, сопоставимой с полным набором данных. Примечательно, что мы выявили синергетический эффект, при котором композиция данных, ориентированных на рассуждения, одновременно повышает общие способности.
English
Recent advances in Vision Language Models (VLMs) have driven significant progress in visual reasoning. However, open-source VLMs still lag behind proprietary systems, largely due to the lack of high-quality reasoning data. Existing datasets offer limited coverage of challenging domains such as STEM diagrams and visual puzzles, and lack consistent, long-form Chain-of-Thought (CoT) annotations essential for eliciting strong reasoning capabilities. To bridge this gap, we introduce MMFineReason, a large-scale multimodal reasoning dataset comprising 1.8M samples and 5.1B solution tokens, featuring high-quality reasoning annotations distilled from Qwen3-VL-235B-A22B-Thinking. The dataset is established via a systematic three-stage pipeline: (1) large-scale data collection and standardization, (2) CoT rationale generation, and (3) comprehensive selection based on reasoning quality and difficulty awareness. The resulting dataset spans STEM problems, visual puzzles, games, and complex diagrams, with each sample annotated with visually grounded reasoning traces. We fine-tune Qwen3-VL-Instruct on MMFineReason to develop MMFineReason-2B/4B/8B versions. Our models establish new state-of-the-art results for their size class. Notably, MMFineReason-4B succesfully surpasses Qwen3-VL-8B-Thinking, and MMFineReason-8B even outperforms Qwen3-VL-30B-A3B-Thinking while approaching Qwen3-VL-32B-Thinking, demonstrating remarkable parameter efficiency. Crucially, we uncover a "less is more" phenomenon via our difficulty-aware filtering strategy: a subset of just 7\% (123K samples) achieves performance comparable to the full dataset. Notably, we reveal a synergistic effect where reasoning-oriented data composition simultaneously boosts general capabilities.
PDF413January 31, 2026