GSM8K-V: Können visuelle Sprachmodelle mathematische Textaufgaben der Grundschule in visuellen Kontexten lösen?
GSM8K-V: Can Vision Language Models Solve Grade School Math Word Problems in Visual Contexts
September 29, 2025
papers.authors: Fan Yuan, Yuchen Yan, Yifan Jiang, Haoran Zhao, Tao Feng, Jinyan Chen, Yanwei Lou, Wenqi Zhang, Yongliang Shen, Weiming Lu, Jun Xiao, Yueting Zhuang
cs.AI
papers.abstract
Vision-Language-Modelle (VLMs) ermöglichen eine einheitliche Modellierung von Bildern und Texten, wodurch sie komplexe reale Aufgaben durch Wahrnehmung, Planung und logisches Denken bewältigen können. Unter diesen Aufgaben ist das logische Denken besonders repräsentativ, wobei mathematisches Denken als herausragendes Beispiel dient. Es verdeutlicht die Fähigkeit von VLMs, mathematische Informationen in Bildern zu verstehen und anspruchsvolles logisches Denken durchzuführen. In jüngster Zeit wurden zahlreiche Benchmarks für visuelles mathematisches Denken vorgeschlagen, doch diese beschränken sich oft auf Geometrie, decken Textaufgaben nicht ab und bewerten selten das Denken über mehrere Bilder hinweg. Um diese Lücken zu schließen, führen wir GSM8K-V ein, einen rein visuellen Benchmark für mathematisches Denken mit mehreren Bildern. GSM8K-V wird durch die systematische Umwandlung jedes Beispiels aus dem weit verbreiteten textbasierten GSM8K in eine visuelle Form erstellt. Durch einen sorgfältig gestalteten automatisierten Bildgenerierungsprozess in Kombination mit akribischer menschlicher Annotation haben wir 1.319 hochwertige Beispiele zusammengestellt. Wir evaluieren eine Vielzahl von Open-Source- und Closed-Source-Modellen anhand von GSM8K-V. Die Ergebnisse zeigen, dass bestehende VLMs zwar eine nahezu gesättigte Leistung auf dem textbasierten GSM8K erreichen, es jedoch auf GSM8K-V noch erheblichen Verbesserungsbedarf gibt. Beispielsweise erzielt das leistungsstärkste Modell, Gemini-2.5-Pro, eine Genauigkeit von 95,22 % auf GSM8K, aber nur 46,93 % auf GSM8K-V. Wir führen eine umfassende Analyse von GSM8K-V durch, untersuchen die Grenzen aktueller Modelle sowie potenzielle Verbesserungsrichtungen. GSM8K-V bietet eine neue Perspektive auf visuelles mathematisches Denken und etabliert einen Benchmark, um die Entwicklung robusterer und generalisierbarer VLMs zu leiten.
English
Vision language models (VLMs) achieve unified modeling of images and text,
enabling them to accomplish complex real-world tasks through perception,
planning, and reasoning. Among these tasks, reasoning is particularly
representative, with mathematical reasoning serving as a prominent example. It
highlights the high-level capability of VLMs to comprehend mathematical
information in images and to perform sophisticated reasoning. Recently,
numerous visual mathematical reasoning benchmarks have been proposed, but they
are often restricted to geometry, lack coverage of math word problems, and
rarely assess reasoning across multiple images. To address these gaps, we
introduce GSM8K-V, a purely visual multi-image mathematical reasoning
benchmark. GSM8K-V is built by systematically mapping each sample from the
widely used text-based GSM8K into visual form. Through a carefully designed
automated image-generation pipeline combined with meticulous human annotation,
we curate 1,319 high-quality samples. We evaluate a wide range of open-source
and closed-source models on GSM8K-V. Results show that although existing VLMs
have nearly saturated performance on text-based GSM8K, there remains
substantial room for improvement on GSM8K-V. For example, the best-performing
model, Gemini-2.5-Pro, achieves 95.22% accuracy on GSM8K but only 46.93% on
GSM8K-V. We conduct a comprehensive analysis of GSM8K-V, examining the
limitations of current models as well as potential directions for improvement.
GSM8K-V offers a new perspective on visual mathematical reasoning and
establishes a benchmark to guide the development of more robust and
generalizable VLMs.