ChatPaper.aiChatPaper

¿Los Modelos de Visión-Lenguaje Están a la Altura? Evaluación Comparativa de la Lectura de Mediciones Visuales con MeasureBench

Do Vision-Language Models Measure Up? Benchmarking Visual Measurement Reading with MeasureBench

October 30, 2025
Autores: Fenfen Lin, Yesheng Liu, Haiyu Xu, Chen Yue, Zheqi He, Mingxuan Zhao, Miguel Hu Chen, Jiakang Liu, JG Yao, Xi Yang
cs.AI

Resumen

La lectura de instrumentos de medición es sencilla para los seres humanos y requiere relativamente poca experiencia en el dominio; sin embargo, sigue siendo sorprendentemente difícil para los modelos actuales de visión y lenguaje (VLM), como hemos descubierto en una evaluación preliminar. En este trabajo, presentamos MeasureBench, un benchmark sobre la lectura visual de mediciones que abarca tanto imágenes del mundo real como sintetizadas de varios tipos de instrumentos, junto con una canalización extensible para la síntesis de datos. Nuestra canalización genera de forma procedural un tipo específico de instrumento con una apariencia visual controlable, permitiendo una variación escalable en detalles clave como agujas, escalas, fuentes, iluminación y elementos de distracción. La evaluación de los VLM propietarios y de código abierto más populares muestra que incluso los VLM de última generación más potentes tienen dificultades generales con la lectura de mediciones. Un modo de fallo consistente es la localización del indicador: los modelos pueden leer dígitos o etiquetas, pero identifican incorrectamente las posiciones clave de las agujas o alineaciones, lo que genera grandes errores numéricos a pesar de una razonamiento textual plausible. También hemos realizado experimentos preliminares con aprendizaje por refuerzo sobre datos sintéticos y encontramos resultados alentadores en el subconjunto sintético dentro del dominio, pero menos prometedores para imágenes del mundo real. Nuestro análisis destaca una limitación fundamental de los VLM actuales en la fundamentación espacial de grano fino. Esperamos que este recurso pueda ayudar a futuros avances en la aritmética visualmente fundamentada y la percepción espacial precisa de los VLM, cerrando la brecha entre reconocer números y medir el mundo.
English
Reading measurement instruments is effortless for humans and requires relatively little domain expertise, yet it remains surprisingly challenging for current vision-language models (VLMs) as we find in preliminary evaluation. In this work, we introduce MeasureBench, a benchmark on visual measurement reading covering both real-world and synthesized images of various types of measurements, along with an extensible pipeline for data synthesis. Our pipeline procedurally generates a specified type of gauge with controllable visual appearance, enabling scalable variation in key details such as pointers, scales, fonts, lighting, and clutter. Evaluation on popular proprietary and open-weight VLMs shows that even the strongest frontier VLMs struggle measurement reading in general. A consistent failure mode is indicator localization: models can read digits or labels but misidentify the key positions of pointers or alignments, leading to big numeric errors despite plausible textual reasoning. We have also conducted preliminary experiments with reinforcement learning over synthetic data, and find encouraging results on in-domain synthetic subset but less promising for real-world images. Our analysis highlights a fundamental limitation of current VLMs in fine-grained spatial grounding. We hope this resource can help future advances on visually grounded numeracy and precise spatial perception of VLMs, bridging the gap between recognizing numbers and measuring the world.
PDF111January 19, 2026