ChatPaper.aiChatPaper

Соответствуют ли мультимодальные модели требованиям? Бенчмаркинг чтения визуальных измерений с помощью MeasureBench

Do Vision-Language Models Measure Up? Benchmarking Visual Measurement Reading with MeasureBench

October 30, 2025
Авторы: Fenfen Lin, Yesheng Liu, Haiyu Xu, Chen Yue, Zheqi He, Mingxuan Zhao, Miguel Hu Chen, Jiakang Liu, JG Yao, Xi Yang
cs.AI

Аннотация

Считывание показаний измерительных приборов не представляет труда для человека и требует относительно небольшой экспертизы в предметной области, однако, как мы обнаружили в предварительной оценке, остается удивительно сложной задачей для современных моделей "визуальный язык" (VLMs). В данной работе мы представляем MeasureBench — бенчмарк для оценки считывания визуальных измерений, охватывающий как реальные, так и синтезированные изображения различных типов измерительных приборов, а также расширяемый конвейер для синтеза данных. Наш конвейер процедурно генерирует заданный тип датчика с контролируемым визуальным видом, обеспечивая масштабируемое варьирование ключевых деталей, таких как стрелки, шкалы, шрифты, освещение и помехи. Оценка популярных проприетарных и открытых VLMs показывает, что даже самые передовые модели испытывают трудности со считыванием измерений в целом. Устойчивым типом ошибок является локализация указателя: модели могут считывать цифры или метки, но неправильно определяют ключевые позиции стрелок или выравниваний, что приводит к большим числовым ошибкам, несмотря на правдоподобные текстовые рассуждения. Мы также провели предварительные эксперименты с обучением с подкреплением на синтетических данных и обнаружили обнадеживающие результаты на синтетическом подмножестве из той же области, но менее promising для реальных изображений. Наш анализ выявляет фундаментальное ограничение современных VLMs в точном пространственном позиционировании. Мы надеемся, что этот ресурс поможет будущим достижениям в области визуальной математической грамотности и точного пространственного восприятия VLMs, сокращая разрыв между распознаванием чисел и измерением мира.
English
Reading measurement instruments is effortless for humans and requires relatively little domain expertise, yet it remains surprisingly challenging for current vision-language models (VLMs) as we find in preliminary evaluation. In this work, we introduce MeasureBench, a benchmark on visual measurement reading covering both real-world and synthesized images of various types of measurements, along with an extensible pipeline for data synthesis. Our pipeline procedurally generates a specified type of gauge with controllable visual appearance, enabling scalable variation in key details such as pointers, scales, fonts, lighting, and clutter. Evaluation on popular proprietary and open-weight VLMs shows that even the strongest frontier VLMs struggle measurement reading in general. A consistent failure mode is indicator localization: models can read digits or labels but misidentify the key positions of pointers or alignments, leading to big numeric errors despite plausible textual reasoning. We have also conducted preliminary experiments with reinforcement learning over synthetic data, and find encouraging results on in-domain synthetic subset but less promising for real-world images. Our analysis highlights a fundamental limitation of current VLMs in fine-grained spatial grounding. We hope this resource can help future advances on visually grounded numeracy and precise spatial perception of VLMs, bridging the gap between recognizing numbers and measuring the world.
PDF111January 19, 2026