GSM8K-V: I Modelli Linguistici Visivi Possono Risolvere Problemi Matematici Verbali di Scuola Elementare in Contesti Visivi?
GSM8K-V: Can Vision Language Models Solve Grade School Math Word Problems in Visual Contexts
September 29, 2025
Autori: Fan Yuan, Yuchen Yan, Yifan Jiang, Haoran Zhao, Tao Feng, Jinyan Chen, Yanwei Lou, Wenqi Zhang, Yongliang Shen, Weiming Lu, Jun Xiao, Yueting Zhuang
cs.AI
Abstract
I modelli linguistici visivi (VLMs) realizzano una modellizzazione unificata di immagini e testo, consentendo loro di affrontare complessi compiti del mondo reale attraverso percezione, pianificazione e ragionamento. Tra questi compiti, il ragionamento è particolarmente rappresentativo, con il ragionamento matematico che funge da esempio emblematico. Esso evidenzia l'elevata capacità dei VLMs di comprendere informazioni matematiche presenti nelle immagini e di eseguire ragionamenti sofisticati. Recentemente, sono stati proposti numerosi benchmark per il ragionamento matematico visivo, ma spesso si limitano alla geometria, mancano di copertura per i problemi matematici verbali e raramente valutano il ragionamento su più immagini. Per colmare queste lacune, introduciamo GSM8K-V, un benchmark puramente visivo per il ragionamento matematico su più immagini. GSM8K-V è costruito mappando sistematicamente ciascun campione del diffusissimo GSM8K basato su testo in forma visiva. Attraverso una pipeline automatizzata per la generazione di immagini progettata con cura e un'accurata annotazione umana, abbiamo curato 1.319 campioni di alta qualità. Valutiamo un'ampia gamma di modelli open-source e closed-source su GSM8K-V. I risultati mostrano che, sebbene i VLMs esistenti abbiano quasi saturato le prestazioni su GSM8K basato su testo, c'è ancora un ampio margine di miglioramento su GSM8K-V. Ad esempio, il modello con le migliori prestazioni, Gemini-2.5-Pro, raggiunge un'accuratezza del 95,22% su GSM8K ma solo del 46,93% su GSM8K-V. Conduciamo un'analisi completa di GSM8K-V, esaminando i limiti dei modelli attuali e le potenziali direzioni per il miglioramento. GSM8K-V offre una nuova prospettiva sul ragionamento matematico visivo e stabilisce un benchmark per guidare lo sviluppo di VLMs più robusti e generalizzabili.
English
Vision language models (VLMs) achieve unified modeling of images and text,
enabling them to accomplish complex real-world tasks through perception,
planning, and reasoning. Among these tasks, reasoning is particularly
representative, with mathematical reasoning serving as a prominent example. It
highlights the high-level capability of VLMs to comprehend mathematical
information in images and to perform sophisticated reasoning. Recently,
numerous visual mathematical reasoning benchmarks have been proposed, but they
are often restricted to geometry, lack coverage of math word problems, and
rarely assess reasoning across multiple images. To address these gaps, we
introduce GSM8K-V, a purely visual multi-image mathematical reasoning
benchmark. GSM8K-V is built by systematically mapping each sample from the
widely used text-based GSM8K into visual form. Through a carefully designed
automated image-generation pipeline combined with meticulous human annotation,
we curate 1,319 high-quality samples. We evaluate a wide range of open-source
and closed-source models on GSM8K-V. Results show that although existing VLMs
have nearly saturated performance on text-based GSM8K, there remains
substantial room for improvement on GSM8K-V. For example, the best-performing
model, Gemini-2.5-Pro, achieves 95.22% accuracy on GSM8K but only 46.93% on
GSM8K-V. We conduct a comprehensive analysis of GSM8K-V, examining the
limitations of current models as well as potential directions for improvement.
GSM8K-V offers a new perspective on visual mathematical reasoning and
establishes a benchmark to guide the development of more robust and
generalizable VLMs.