ChatPaper.aiChatPaper

GSM8K-V: ¿Pueden los modelos de lenguaje visual resolver problemas matemáticos de nivel escolar en contextos visuales?

GSM8K-V: Can Vision Language Models Solve Grade School Math Word Problems in Visual Contexts

September 29, 2025
Autores: Fan Yuan, Yuchen Yan, Yifan Jiang, Haoran Zhao, Tao Feng, Jinyan Chen, Yanwei Lou, Wenqi Zhang, Yongliang Shen, Weiming Lu, Jun Xiao, Yueting Zhuang
cs.AI

Resumen

Los modelos de lenguaje visual (VLMs, por sus siglas en inglés) logran una modelización unificada de imágenes y texto, permitiéndoles realizar tareas complejas del mundo real a través de la percepción, planificación y razonamiento. Entre estas tareas, el razonamiento es particularmente representativo, siendo el razonamiento matemático un ejemplo destacado. Este resalta la capacidad de alto nivel de los VLMs para comprender información matemática en imágenes y llevar a cabo razonamientos sofisticados. Recientemente, se han propuesto numerosos puntos de referencia (benchmarks) de razonamiento matemático visual, pero a menudo se limitan a la geometría, carecen de cobertura de problemas matemáticos verbales y rara vez evalúan el razonamiento a través de múltiples imágenes. Para abordar estas brechas, presentamos GSM8K-V, un benchmark de razonamiento matemático visual puramente basado en múltiples imágenes. GSM8K-V se construye mapeando sistemáticamente cada muestra del ampliamente utilizado GSM8K basado en texto a su forma visual. A través de una pipeline de generación de imágenes automatizada cuidadosamente diseñada, combinada con una meticulosa anotación humana, seleccionamos 1,319 muestras de alta calidad. Evaluamos una amplia gama de modelos de código abierto y cerrado en GSM8K-V. Los resultados muestran que, aunque los VLMs existentes han casi saturado su rendimiento en GSM8K basado en texto, aún existe un margen sustancial de mejora en GSM8K-V. Por ejemplo, el modelo con mejor rendimiento, Gemini-2.5-Pro, alcanza un 95.22% de precisión en GSM8K, pero solo un 46.93% en GSM8K-V. Realizamos un análisis exhaustivo de GSM8K-V, examinando las limitaciones de los modelos actuales, así como las posibles direcciones de mejora. GSM8K-V ofrece una nueva perspectiva sobre el razonamiento matemático visual y establece un benchmark para guiar el desarrollo de VLMs más robustos y generalizables.
English
Vision language models (VLMs) achieve unified modeling of images and text, enabling them to accomplish complex real-world tasks through perception, planning, and reasoning. Among these tasks, reasoning is particularly representative, with mathematical reasoning serving as a prominent example. It highlights the high-level capability of VLMs to comprehend mathematical information in images and to perform sophisticated reasoning. Recently, numerous visual mathematical reasoning benchmarks have been proposed, but they are often restricted to geometry, lack coverage of math word problems, and rarely assess reasoning across multiple images. To address these gaps, we introduce GSM8K-V, a purely visual multi-image mathematical reasoning benchmark. GSM8K-V is built by systematically mapping each sample from the widely used text-based GSM8K into visual form. Through a carefully designed automated image-generation pipeline combined with meticulous human annotation, we curate 1,319 high-quality samples. We evaluate a wide range of open-source and closed-source models on GSM8K-V. Results show that although existing VLMs have nearly saturated performance on text-based GSM8K, there remains substantial room for improvement on GSM8K-V. For example, the best-performing model, Gemini-2.5-Pro, achieves 95.22% accuracy on GSM8K but only 46.93% on GSM8K-V. We conduct a comprehensive analysis of GSM8K-V, examining the limitations of current models as well as potential directions for improvement. GSM8K-V offers a new perspective on visual mathematical reasoning and establishes a benchmark to guide the development of more robust and generalizable VLMs.
PDF251September 30, 2025