GSM8K-V : Les modèles de vision et de langage peuvent-ils résoudre des problèmes de mathématiques de niveau primaire dans des contextes visuels ?
GSM8K-V: Can Vision Language Models Solve Grade School Math Word Problems in Visual Contexts
September 29, 2025
papers.authors: Fan Yuan, Yuchen Yan, Yifan Jiang, Haoran Zhao, Tao Feng, Jinyan Chen, Yanwei Lou, Wenqi Zhang, Yongliang Shen, Weiming Lu, Jun Xiao, Yueting Zhuang
cs.AI
papers.abstract
Les modèles de vision et langage (VLMs) réalisent une modélisation unifiée des images et du texte, leur permettant d'accomplir des tâches complexes du monde réel grâce à la perception, la planification et le raisonnement. Parmi ces tâches, le raisonnement est particulièrement représentatif, avec le raisonnement mathématique comme exemple marquant. Il met en évidence la capacité de haut niveau des VLMs à comprendre les informations mathématiques dans les images et à effectuer un raisonnement sophistiqué. Récemment, de nombreux benchmarks de raisonnement mathématique visuel ont été proposés, mais ils se limitent souvent à la géométrie, manquent de couverture des problèmes de mots mathématiques et évaluent rarement le raisonnement sur plusieurs images. Pour combler ces lacunes, nous introduisons GSM8K-V, un benchmark de raisonnement mathématique visuel multi-images purement visuel. GSM8K-V est construit en mappant systématiquement chaque échantillon du GSM8K basé sur du texte largement utilisé sous forme visuelle. Grâce à un pipeline automatisé de génération d'images soigneusement conçu combiné à une annotation humaine méticuleuse, nous avons sélectionné 1 319 échantillons de haute qualité. Nous évaluons une large gamme de modèles open-source et propriétaires sur GSM8K-V. Les résultats montrent que bien que les VLMs existants aient presque saturé les performances sur GSM8K basé sur du texte, il reste une marge d'amélioration substantielle sur GSM8K-V. Par exemple, le modèle le plus performant, Gemini-2.5-Pro, atteint une précision de 95,22 % sur GSM8K mais seulement 46,93 % sur GSM8K-V. Nous menons une analyse approfondie de GSM8K-V, examinant les limites des modèles actuels ainsi que les directions potentielles d'amélioration. GSM8K-V offre une nouvelle perspective sur le raisonnement mathématique visuel et établit un benchmark pour guider le développement de VLMs plus robustes et généralisables.
English
Vision language models (VLMs) achieve unified modeling of images and text,
enabling them to accomplish complex real-world tasks through perception,
planning, and reasoning. Among these tasks, reasoning is particularly
representative, with mathematical reasoning serving as a prominent example. It
highlights the high-level capability of VLMs to comprehend mathematical
information in images and to perform sophisticated reasoning. Recently,
numerous visual mathematical reasoning benchmarks have been proposed, but they
are often restricted to geometry, lack coverage of math word problems, and
rarely assess reasoning across multiple images. To address these gaps, we
introduce GSM8K-V, a purely visual multi-image mathematical reasoning
benchmark. GSM8K-V is built by systematically mapping each sample from the
widely used text-based GSM8K into visual form. Through a carefully designed
automated image-generation pipeline combined with meticulous human annotation,
we curate 1,319 high-quality samples. We evaluate a wide range of open-source
and closed-source models on GSM8K-V. Results show that although existing VLMs
have nearly saturated performance on text-based GSM8K, there remains
substantial room for improvement on GSM8K-V. For example, the best-performing
model, Gemini-2.5-Pro, achieves 95.22% accuracy on GSM8K but only 46.93% on
GSM8K-V. We conduct a comprehensive analysis of GSM8K-V, examining the
limitations of current models as well as potential directions for improvement.
GSM8K-V offers a new perspective on visual mathematical reasoning and
establishes a benchmark to guide the development of more robust and
generalizable VLMs.