Соответствуют ли мультимодальные модели требованиям? Бенчмаркинг чтения визуальных измерений с помощью MeasureBench
Do Vision-Language Models Measure Up? Benchmarking Visual Measurement Reading with MeasureBench
October 30, 2025
Авторы: Fenfen Lin, Yesheng Liu, Haiyu Xu, Chen Yue, Zheqi He, Mingxuan Zhao, Miguel Hu Chen, Jiakang Liu, JG Yao, Xi Yang
cs.AI
Аннотация
Считывание показаний измерительных приборов не представляет труда для человека и требует относительно небольшой экспертизы в предметной области, однако, как мы обнаружили в предварительной оценке, остается удивительно сложной задачей для современных моделей "визуальный язык" (VLMs). В данной работе мы представляем MeasureBench — бенчмарк для оценки считывания визуальных измерений, охватывающий как реальные, так и синтезированные изображения различных типов измерительных приборов, а также расширяемый конвейер для синтеза данных. Наш конвейер процедурно генерирует заданный тип датчика с контролируемым визуальным видом, обеспечивая масштабируемое варьирование ключевых деталей, таких как стрелки, шкалы, шрифты, освещение и помехи. Оценка популярных проприетарных и открытых VLMs показывает, что даже самые передовые модели испытывают трудности со считыванием измерений в целом. Устойчивым типом ошибок является локализация указателя: модели могут считывать цифры или метки, но неправильно определяют ключевые позиции стрелок или выравниваний, что приводит к большим числовым ошибкам, несмотря на правдоподобные текстовые рассуждения. Мы также провели предварительные эксперименты с обучением с подкреплением на синтетических данных и обнаружили обнадеживающие результаты на синтетическом подмножестве из той же области, но менее promising для реальных изображений. Наш анализ выявляет фундаментальное ограничение современных VLMs в точном пространственном позиционировании. Мы надеемся, что этот ресурс поможет будущим достижениям в области визуальной математической грамотности и точного пространственного восприятия VLMs, сокращая разрыв между распознаванием чисел и измерением мира.
English
Reading measurement instruments is effortless for humans and requires
relatively little domain expertise, yet it remains surprisingly challenging for
current vision-language models (VLMs) as we find in preliminary evaluation. In
this work, we introduce MeasureBench, a benchmark on visual measurement reading
covering both real-world and synthesized images of various types of
measurements, along with an extensible pipeline for data synthesis. Our
pipeline procedurally generates a specified type of gauge with controllable
visual appearance, enabling scalable variation in key details such as pointers,
scales, fonts, lighting, and clutter. Evaluation on popular proprietary and
open-weight VLMs shows that even the strongest frontier VLMs struggle
measurement reading in general. A consistent failure mode is indicator
localization: models can read digits or labels but misidentify the key
positions of pointers or alignments, leading to big numeric errors despite
plausible textual reasoning. We have also conducted preliminary experiments
with reinforcement learning over synthetic data, and find encouraging results
on in-domain synthetic subset but less promising for real-world images. Our
analysis highlights a fundamental limitation of current VLMs in fine-grained
spatial grounding. We hope this resource can help future advances on visually
grounded numeracy and precise spatial perception of VLMs, bridging the gap
between recognizing numbers and measuring the world.