GSM8K-V: Modelos de Linguagem Visual Podem Resolver Problemas Matemáticos de Ensino Fundamental em Contextos Visuais?
GSM8K-V: Can Vision Language Models Solve Grade School Math Word Problems in Visual Contexts
September 29, 2025
Autores: Fan Yuan, Yuchen Yan, Yifan Jiang, Haoran Zhao, Tao Feng, Jinyan Chen, Yanwei Lou, Wenqi Zhang, Yongliang Shen, Weiming Lu, Jun Xiao, Yueting Zhuang
cs.AI
Resumo
Modelos de linguagem visual (VLMs) alcançam uma modelagem unificada de imagens e texto, permitindo que realizem tarefas complexas do mundo real por meio de percepção, planejamento e raciocínio. Entre essas tarefas, o raciocínio é particularmente representativo, com o raciocínio matemático servindo como um exemplo proeminente. Ele destaca a capacidade de alto nível dos VLMs de compreender informações matemáticas em imagens e realizar raciocínios sofisticados. Recentemente, diversos benchmarks de raciocínio matemático visual foram propostos, mas eles frequentemente se restringem à geometria, carecem de cobertura de problemas matemáticos verbais e raramente avaliam o raciocínio em múltiplas imagens. Para abordar essas lacunas, introduzimos o GSM8K-V, um benchmark puramente visual de raciocínio matemático com múltiplas imagens. O GSM8K-V é construído mapeando sistematicamente cada amostra do amplamente utilizado GSM8K baseado em texto para uma forma visual. Por meio de um pipeline de geração de imagens automatizado cuidadosamente projetado, combinado com anotação humana meticulosa, curamos 1.319 amostras de alta qualidade. Avaliamos uma ampla gama de modelos de código aberto e proprietários no GSM8K-V. Os resultados mostram que, embora os VLMs existentes tenham quase saturado o desempenho no GSM8K baseado em texto, ainda há um espaço substancial para melhoria no GSM8K-V. Por exemplo, o modelo de melhor desempenho, Gemini-2.5-Pro, alcança 95,22% de precisão no GSM8K, mas apenas 46,93% no GSM8K-V. Realizamos uma análise abrangente do GSM8K-V, examinando as limitações dos modelos atuais, bem como possíveis direções para melhoria. O GSM8K-V oferece uma nova perspectiva sobre o raciocínio matemático visual e estabelece um benchmark para guiar o desenvolvimento de VLMs mais robustos e generalizáveis.
English
Vision language models (VLMs) achieve unified modeling of images and text,
enabling them to accomplish complex real-world tasks through perception,
planning, and reasoning. Among these tasks, reasoning is particularly
representative, with mathematical reasoning serving as a prominent example. It
highlights the high-level capability of VLMs to comprehend mathematical
information in images and to perform sophisticated reasoning. Recently,
numerous visual mathematical reasoning benchmarks have been proposed, but they
are often restricted to geometry, lack coverage of math word problems, and
rarely assess reasoning across multiple images. To address these gaps, we
introduce GSM8K-V, a purely visual multi-image mathematical reasoning
benchmark. GSM8K-V is built by systematically mapping each sample from the
widely used text-based GSM8K into visual form. Through a carefully designed
automated image-generation pipeline combined with meticulous human annotation,
we curate 1,319 high-quality samples. We evaluate a wide range of open-source
and closed-source models on GSM8K-V. Results show that although existing VLMs
have nearly saturated performance on text-based GSM8K, there remains
substantial room for improvement on GSM8K-V. For example, the best-performing
model, Gemini-2.5-Pro, achieves 95.22% accuracy on GSM8K but only 46.93% on
GSM8K-V. We conduct a comprehensive analysis of GSM8K-V, examining the
limitations of current models as well as potential directions for improvement.
GSM8K-V offers a new perspective on visual mathematical reasoning and
establishes a benchmark to guide the development of more robust and
generalizable VLMs.