MMFineReason: Cerrando la Brecha en el Razonamiento Multimodal mediante Métodos Centrados en Datos Abiertos
MMFineReason: Closing the Multimodal Reasoning Gap via Open Data-Centric Methods
January 29, 2026
Autores: Honglin Lin, Zheng Liu, Yun Zhu, Chonghan Qin, Juekai Lin, Xiaoran Shang, Conghui He, Wentao Zhang, Lijun Wu
cs.AI
Resumen
Los recientes avances en los Modelos de Lenguaje Visual (VLMs) han impulsado un progreso significativo en el razonamiento visual. Sin embargo, los VLMs de código abierto aún están por detrás de los sistemas propietarios, en gran medida debido a la falta de datos de razonamiento de alta calidad. Los conjuntos de datos existentes ofrecen una cobertura limitada de dominios desafiantes, como los diagramas STEM y los acertijos visuales, y carecen de anotaciones consistentes y extensas de Cadena de Pensamiento (CoT), esenciales para desarrollar capacidades de razonamiento sólidas. Para cerrar esta brecha, presentamos MMFineReason, un conjunto de datos de razonamiento multimodal a gran escala que comprende 1,8 millones de muestras y 5.100 millones de tokens de solución, con anotaciones de razonamiento de alta calidad destiladas desde Qwen3-VL-235B-A22B-Thinking. El conjunto de datos se estableció mediante un pipeline sistemático de tres etapas: (1) recolección y estandarización de datos a gran escala, (2) generación de racionales CoT, y (3) selección exhaustiva basada en la calidad del razonamiento y la conciencia de la dificultad. El conjunto de datos resultante abarca problemas STEM, acertijos visuales, juegos y diagramas complejos, y cada muestra está anotada con trazas de razonamiento visualmente fundamentadas. Ajustamos Qwen3-VL-Instruct en MMFineReason para desarrollar las versiones MMFineReason-2B/4B/8B. Nuestros modelos establecen nuevos resultados de vanguardia para su clase de tamaño. Notablemente, MMFineReason-4B supera con éxito a Qwen3-VL-8B-Thinking, y MMFineReason-8B incluso supera a Qwen3-VL-30B-A3B-Thinking mientras se acerca al rendimiento de Qwen3-VL-32B-Thinking, demostrando una notable eficiencia de parámetros. Crucialmente, descubrimos un fenómeno de "menos es más" mediante nuestra estrategia de filtrado consciente de la dificultad: un subconjunto de solo el 7% (123.000 muestras) logra un rendimiento comparable al del conjunto de datos completo. Es notable que revelamos un efecto sinérgico donde la composición de datos orientada al razonamiento impulsa simultáneamente las capacidades generales.
English
Recent advances in Vision Language Models (VLMs) have driven significant progress in visual reasoning. However, open-source VLMs still lag behind proprietary systems, largely due to the lack of high-quality reasoning data. Existing datasets offer limited coverage of challenging domains such as STEM diagrams and visual puzzles, and lack consistent, long-form Chain-of-Thought (CoT) annotations essential for eliciting strong reasoning capabilities. To bridge this gap, we introduce MMFineReason, a large-scale multimodal reasoning dataset comprising 1.8M samples and 5.1B solution tokens, featuring high-quality reasoning annotations distilled from Qwen3-VL-235B-A22B-Thinking. The dataset is established via a systematic three-stage pipeline: (1) large-scale data collection and standardization, (2) CoT rationale generation, and (3) comprehensive selection based on reasoning quality and difficulty awareness. The resulting dataset spans STEM problems, visual puzzles, games, and complex diagrams, with each sample annotated with visually grounded reasoning traces. We fine-tune Qwen3-VL-Instruct on MMFineReason to develop MMFineReason-2B/4B/8B versions. Our models establish new state-of-the-art results for their size class. Notably, MMFineReason-4B succesfully surpasses Qwen3-VL-8B-Thinking, and MMFineReason-8B even outperforms Qwen3-VL-30B-A3B-Thinking while approaching Qwen3-VL-32B-Thinking, demonstrating remarkable parameter efficiency. Crucially, we uncover a "less is more" phenomenon via our difficulty-aware filtering strategy: a subset of just 7\% (123K samples) achieves performance comparable to the full dataset. Notably, we reveal a synergistic effect where reasoning-oriented data composition simultaneously boosts general capabilities.