ChatPaper.aiChatPaper

GSM8K-V: Могут ли модели обработки визуальных и языковых данных решать математические задачи для начальной школы в визуальном контексте?

GSM8K-V: Can Vision Language Models Solve Grade School Math Word Problems in Visual Contexts

September 29, 2025
Авторы: Fan Yuan, Yuchen Yan, Yifan Jiang, Haoran Zhao, Tao Feng, Jinyan Chen, Yanwei Lou, Wenqi Zhang, Yongliang Shen, Weiming Lu, Jun Xiao, Yueting Zhuang
cs.AI

Аннотация

Модели обработки визуальной информации и текста (VLMs) обеспечивают унифицированное моделирование изображений и текста, что позволяет им выполнять сложные задачи реального мира через восприятие, планирование и рассуждение. Среди этих задач рассуждение является особенно показательным, при этом математическое рассуждение служит ярким примером. Оно подчеркивает высокоуровневую способность VLMs понимать математическую информацию в изображениях и выполнять сложные рассуждения. В последнее время было предложено множество тестовых наборов для визуального математического рассуждения, но они часто ограничиваются геометрией, не охватывают текстовые математические задачи и редко оценивают рассуждения на основе нескольких изображений. Чтобы устранить эти пробелы, мы представляем GSM8K-V — чисто визуальный тестовый набор для математического рассуждения на основе нескольких изображений. GSM8K-V создан путем систематического преобразования каждого образца из широко используемого текстового набора GSM8K в визуальную форму. Благодаря тщательно разработанному автоматизированному конвейеру генерации изображений в сочетании с аккуратной ручной аннотацией мы создали 1 319 высококачественных образцов. Мы оцениваем широкий спектр открытых и закрытых моделей на GSM8K-V. Результаты показывают, что хотя существующие VLMs практически достигли предела производительности на текстовом GSM8K, на GSM8K-V остается значительный потенциал для улучшения. Например, лучшая модель, Gemini-2.5-Pro, достигает точности 95,22% на GSM8K, но только 46,93% на GSM8K-V. Мы проводим всесторонний анализ GSM8K-V, изучая ограничения текущих моделей, а также потенциальные направления для улучшения. GSM8K-V предлагает новый взгляд на визуальное математическое рассуждение и устанавливает эталон для разработки более надежных и универсальных VLMs.
English
Vision language models (VLMs) achieve unified modeling of images and text, enabling them to accomplish complex real-world tasks through perception, planning, and reasoning. Among these tasks, reasoning is particularly representative, with mathematical reasoning serving as a prominent example. It highlights the high-level capability of VLMs to comprehend mathematical information in images and to perform sophisticated reasoning. Recently, numerous visual mathematical reasoning benchmarks have been proposed, but they are often restricted to geometry, lack coverage of math word problems, and rarely assess reasoning across multiple images. To address these gaps, we introduce GSM8K-V, a purely visual multi-image mathematical reasoning benchmark. GSM8K-V is built by systematically mapping each sample from the widely used text-based GSM8K into visual form. Through a carefully designed automated image-generation pipeline combined with meticulous human annotation, we curate 1,319 high-quality samples. We evaluate a wide range of open-source and closed-source models on GSM8K-V. Results show that although existing VLMs have nearly saturated performance on text-based GSM8K, there remains substantial room for improvement on GSM8K-V. For example, the best-performing model, Gemini-2.5-Pro, achieves 95.22% accuracy on GSM8K but only 46.93% on GSM8K-V. We conduct a comprehensive analysis of GSM8K-V, examining the limitations of current models as well as potential directions for improvement. GSM8K-V offers a new perspective on visual mathematical reasoning and establishes a benchmark to guide the development of more robust and generalizable VLMs.
PDF251September 30, 2025