GSM8K-V: Kunnen Vision Language Models Wiskundige Woordproblemen op Basisschoolniveau Oplossen in Visuele Contexten?
GSM8K-V: Can Vision Language Models Solve Grade School Math Word Problems in Visual Contexts
September 29, 2025
Auteurs: Fan Yuan, Yuchen Yan, Yifan Jiang, Haoran Zhao, Tao Feng, Jinyan Chen, Yanwei Lou, Wenqi Zhang, Yongliang Shen, Weiming Lu, Jun Xiao, Yueting Zhuang
cs.AI
Samenvatting
Vision language models (VLMs) bereiken een geïntegreerd model van afbeeldingen en tekst, waardoor ze complexe taken in de echte wereld kunnen uitvoeren door middel van waarneming, planning en redeneren. Onder deze taken is redeneren bijzonder representatief, waarbij wiskundig redeneren als een prominent voorbeeld dient. Het benadrukt het hoogwaardige vermogen van VLMs om wiskundige informatie in afbeeldingen te begrijpen en geavanceerd redeneren uit te voeren. Recentelijk zijn er tal van visuele wiskundige redeneerbenchmarks voorgesteld, maar deze zijn vaak beperkt tot geometrie, missen dekking van wiskundige woordproblemen en beoordelen zelden redeneren over meerdere afbeeldingen. Om deze lacunes aan te pakken, introduceren we GSM8K-V, een puur visuele multi-image wiskundige redeneerbenchmark. GSM8K-V is opgebouwd door elk voorbeeld uit de veelgebruikte tekstgebaseerde GSM8K systematisch om te zetten in visuele vorm. Door middel van een zorgvuldig ontworpen geautomatiseerde afbeeldingsgeneratiepijplijn gecombineerd met nauwgezette menselijke annotatie, hebben we 1.319 hoogwaardige voorbeelden samengesteld. We evalueren een breed scala aan open-source en closed-source modellen op GSM8K-V. De resultaten tonen aan dat hoewel bestaande VLMs bijna verzadigde prestaties hebben op tekstgebaseerde GSM8K, er nog aanzienlijke ruimte voor verbetering is op GSM8K-V. Het best presterende model, Gemini-2.5-Pro, behaalt bijvoorbeeld 95,22% nauwkeurigheid op GSM8K, maar slechts 46,93% op GSM8K-V. We voeren een uitgebreide analyse uit van GSM8K-V, waarbij we de beperkingen van huidige modellen onderzoeken, evenals mogelijke richtingen voor verbetering. GSM8K-V biedt een nieuw perspectief op visueel wiskundig redeneren en stelt een benchmark vast om de ontwikkeling van robuustere en generaliseerbaardere VLMs te begeleiden.
English
Vision language models (VLMs) achieve unified modeling of images and text,
enabling them to accomplish complex real-world tasks through perception,
planning, and reasoning. Among these tasks, reasoning is particularly
representative, with mathematical reasoning serving as a prominent example. It
highlights the high-level capability of VLMs to comprehend mathematical
information in images and to perform sophisticated reasoning. Recently,
numerous visual mathematical reasoning benchmarks have been proposed, but they
are often restricted to geometry, lack coverage of math word problems, and
rarely assess reasoning across multiple images. To address these gaps, we
introduce GSM8K-V, a purely visual multi-image mathematical reasoning
benchmark. GSM8K-V is built by systematically mapping each sample from the
widely used text-based GSM8K into visual form. Through a carefully designed
automated image-generation pipeline combined with meticulous human annotation,
we curate 1,319 high-quality samples. We evaluate a wide range of open-source
and closed-source models on GSM8K-V. Results show that although existing VLMs
have nearly saturated performance on text-based GSM8K, there remains
substantial room for improvement on GSM8K-V. For example, the best-performing
model, Gemini-2.5-Pro, achieves 95.22% accuracy on GSM8K but only 46.93% on
GSM8K-V. We conduct a comprehensive analysis of GSM8K-V, examining the
limitations of current models as well as potential directions for improvement.
GSM8K-V offers a new perspective on visual mathematical reasoning and
establishes a benchmark to guide the development of more robust and
generalizable VLMs.