¿Los Modelos de Visión-Lenguaje Están a la Altura? Evaluación Comparativa de la Lectura de Mediciones Visuales con MeasureBench
Do Vision-Language Models Measure Up? Benchmarking Visual Measurement Reading with MeasureBench
October 30, 2025
Autores: Fenfen Lin, Yesheng Liu, Haiyu Xu, Chen Yue, Zheqi He, Mingxuan Zhao, Miguel Hu Chen, Jiakang Liu, JG Yao, Xi Yang
cs.AI
Resumen
La lectura de instrumentos de medición es sencilla para los seres humanos y requiere relativamente poca experiencia en el dominio; sin embargo, sigue siendo sorprendentemente difícil para los modelos actuales de visión y lenguaje (VLM), como hemos descubierto en una evaluación preliminar. En este trabajo, presentamos MeasureBench, un benchmark sobre la lectura visual de mediciones que abarca tanto imágenes del mundo real como sintetizadas de varios tipos de instrumentos, junto con una canalización extensible para la síntesis de datos. Nuestra canalización genera de forma procedural un tipo específico de instrumento con una apariencia visual controlable, permitiendo una variación escalable en detalles clave como agujas, escalas, fuentes, iluminación y elementos de distracción. La evaluación de los VLM propietarios y de código abierto más populares muestra que incluso los VLM de última generación más potentes tienen dificultades generales con la lectura de mediciones. Un modo de fallo consistente es la localización del indicador: los modelos pueden leer dígitos o etiquetas, pero identifican incorrectamente las posiciones clave de las agujas o alineaciones, lo que genera grandes errores numéricos a pesar de una razonamiento textual plausible. También hemos realizado experimentos preliminares con aprendizaje por refuerzo sobre datos sintéticos y encontramos resultados alentadores en el subconjunto sintético dentro del dominio, pero menos prometedores para imágenes del mundo real. Nuestro análisis destaca una limitación fundamental de los VLM actuales en la fundamentación espacial de grano fino. Esperamos que este recurso pueda ayudar a futuros avances en la aritmética visualmente fundamentada y la percepción espacial precisa de los VLM, cerrando la brecha entre reconocer números y medir el mundo.
English
Reading measurement instruments is effortless for humans and requires
relatively little domain expertise, yet it remains surprisingly challenging for
current vision-language models (VLMs) as we find in preliminary evaluation. In
this work, we introduce MeasureBench, a benchmark on visual measurement reading
covering both real-world and synthesized images of various types of
measurements, along with an extensible pipeline for data synthesis. Our
pipeline procedurally generates a specified type of gauge with controllable
visual appearance, enabling scalable variation in key details such as pointers,
scales, fonts, lighting, and clutter. Evaluation on popular proprietary and
open-weight VLMs shows that even the strongest frontier VLMs struggle
measurement reading in general. A consistent failure mode is indicator
localization: models can read digits or labels but misidentify the key
positions of pointers or alignments, leading to big numeric errors despite
plausible textual reasoning. We have also conducted preliminary experiments
with reinforcement learning over synthetic data, and find encouraging results
on in-domain synthetic subset but less promising for real-world images. Our
analysis highlights a fundamental limitation of current VLMs in fine-grained
spatial grounding. We hope this resource can help future advances on visually
grounded numeracy and precise spatial perception of VLMs, bridging the gap
between recognizing numbers and measuring the world.