MMFineReason: Fechando a Lacuna do Raciocínio Multimodal por Meio de Métodos Abertos Centrados em Dados
MMFineReason: Closing the Multimodal Reasoning Gap via Open Data-Centric Methods
January 29, 2026
Autores: Honglin Lin, Zheng Liu, Yun Zhu, Chonghan Qin, Juekai Lin, Xiaoran Shang, Conghui He, Wentao Zhang, Lijun Wu
cs.AI
Resumo
Os recentes avanços nos Modelos de Linguagem Visual (VLMs) têm impulsionado progressos significativos no raciocínio visual. No entanto, os VLMs de código aberto ainda ficam atrás dos sistemas proprietários, em grande parte devido à falta de dados de raciocínio de alta qualidade. Os conjuntos de dados existentes oferecem cobertura limitada de domínios desafiadores, como diagramas de STEM e quebra-cabeças visuais, e carecem de anotações consistentes e de longo prazo do tipo Cadeia de Pensamento (CoT), essenciais para eliciar fortes capacidades de raciocínio. Para preencher esta lacuna, introduzimos o MMFineReason, um conjunto de dados de raciocínio multimodal em larga escala composto por 1,8 milhão de amostras e 5,1 mil milhões de tokens de solução, apresentando anotações de raciocínio de alta qualidade destiladas do Qwen3-VL-235B-A22B-Thinking. O conjunto de dados é estabelecido através de um *pipeline* sistemático de três estágios: (1) recolha e padronização de dados em larga escala, (2) geração de racional CoT, e (3) seleção abrangente baseada na qualidade do raciocínio e na consciência da dificuldade. O conjunto de dados resultante abrange problemas de STEM, quebra-cabeças visuais, jogos e diagramas complexos, com cada amostra anotada com traços de raciocínio visualmente fundamentados. Ajustamos finamente o Qwen3-VL-Instruct no MMFineReason para desenvolver as versões MMFineReason-2B/4B/8B. Os nossos modelos estabelecem novos resultados state-of-the-art para a sua classe de tamanho. Notavelmente, o MMFineReason-4B supera com sucesso o Qwen3-VL-8B-Thinking, e o MMFineReason-8B supera mesmo o Qwen3-VL-30B-A3B-Thinking enquanto se aproxima do Qwen3-VL-32B-Thinking, demonstrando uma notável eficiência de parâmetros. Crucialmente, descobrimos um fenómeno de "menos é mais" através da nossa estratégia de filtragem com consciência da dificuldade: um subconjunto de apenas 7% (123 mil amostras) atinge um desempenho comparável ao conjunto de dados completo. De forma notável, revelamos um efeito sinérgico em que a composição de dados orientada para o raciocínio impulsiona simultaneamente as capacidades gerais.
English
Recent advances in Vision Language Models (VLMs) have driven significant progress in visual reasoning. However, open-source VLMs still lag behind proprietary systems, largely due to the lack of high-quality reasoning data. Existing datasets offer limited coverage of challenging domains such as STEM diagrams and visual puzzles, and lack consistent, long-form Chain-of-Thought (CoT) annotations essential for eliciting strong reasoning capabilities. To bridge this gap, we introduce MMFineReason, a large-scale multimodal reasoning dataset comprising 1.8M samples and 5.1B solution tokens, featuring high-quality reasoning annotations distilled from Qwen3-VL-235B-A22B-Thinking. The dataset is established via a systematic three-stage pipeline: (1) large-scale data collection and standardization, (2) CoT rationale generation, and (3) comprehensive selection based on reasoning quality and difficulty awareness. The resulting dataset spans STEM problems, visual puzzles, games, and complex diagrams, with each sample annotated with visually grounded reasoning traces. We fine-tune Qwen3-VL-Instruct on MMFineReason to develop MMFineReason-2B/4B/8B versions. Our models establish new state-of-the-art results for their size class. Notably, MMFineReason-4B succesfully surpasses Qwen3-VL-8B-Thinking, and MMFineReason-8B even outperforms Qwen3-VL-30B-A3B-Thinking while approaching Qwen3-VL-32B-Thinking, demonstrating remarkable parameter efficiency. Crucially, we uncover a "less is more" phenomenon via our difficulty-aware filtering strategy: a subset of just 7\% (123K samples) achieves performance comparable to the full dataset. Notably, we reveal a synergistic effect where reasoning-oriented data composition simultaneously boosts general capabilities.