Os Modelos Visão-Linguagem Estão à Altura? Comparativa de Leitura de Medições Visuais com o MeasureBench
Do Vision-Language Models Measure Up? Benchmarking Visual Measurement Reading with MeasureBench
October 30, 2025
Autores: Fenfen Lin, Yesheng Liu, Haiyu Xu, Chen Yue, Zheqi He, Mingxuan Zhao, Miguel Hu Chen, Jiakang Liu, JG Yao, Xi Yang
cs.AI
Resumo
A leitura de instrumentos de medição é uma tarefa simples para humanos e requer relativamente pouca expertise de domínio, mas permanece surpreendentemente desafiadora para os atuais modelos de visão e linguagem (VLMs), como descobrimos em nossa avaliação preliminar. Neste trabalho, apresentamos o MeasureBench, um benchmark para leitura visual de medições que abrange tanto imagens do mundo real quanto imagens sintetizadas de vários tipos de instrumentos, juntamente com um pipeline extensível para síntese de dados. Nosso pipeline gera proceduralmente um tipo específico de medidor com aparência visual controlável, permitindo variações escaláveis em detalhes-chave como ponteiros, escalas, fontes, iluminação e elementos de desordem visual. A avaliação em VLMs proprietários e de pesos abertos populares mostra que mesmo os VLMs de fronteira mais avançados têm dificuldades gerais na leitura de medições. Um modo de falha consistente é a localização do indicador: os modelos conseguem ler dígitos ou etiquetas, mas identificam incorretamente as posições-chave dos ponteiros ou alinhamentos, levando a grandes erros numéricos apesar de um raciocínio textual plausível. Também realizamos experimentos preliminares com aprendizado por reforço sobre dados sintéticos e encontramos resultados encorajadores no subconjunto sintético dentro do domínio, mas menos promissores para imagens do mundo real. Nossa análise destaca uma limitação fundamental dos VLMs atuais na fundamentação espacial de granularidade fina. Esperamos que este recurso possa auxiliar avanços futuros na numeracia visualmente fundamentada e na percepção espacial precisa dos VLMs, preenchendo a lacuna entre reconhecer números e medir o mundo.
English
Reading measurement instruments is effortless for humans and requires
relatively little domain expertise, yet it remains surprisingly challenging for
current vision-language models (VLMs) as we find in preliminary evaluation. In
this work, we introduce MeasureBench, a benchmark on visual measurement reading
covering both real-world and synthesized images of various types of
measurements, along with an extensible pipeline for data synthesis. Our
pipeline procedurally generates a specified type of gauge with controllable
visual appearance, enabling scalable variation in key details such as pointers,
scales, fonts, lighting, and clutter. Evaluation on popular proprietary and
open-weight VLMs shows that even the strongest frontier VLMs struggle
measurement reading in general. A consistent failure mode is indicator
localization: models can read digits or labels but misidentify the key
positions of pointers or alignments, leading to big numeric errors despite
plausible textual reasoning. We have also conducted preliminary experiments
with reinforcement learning over synthetic data, and find encouraging results
on in-domain synthetic subset but less promising for real-world images. Our
analysis highlights a fundamental limitation of current VLMs in fine-grained
spatial grounding. We hope this resource can help future advances on visually
grounded numeracy and precise spatial perception of VLMs, bridging the gap
between recognizing numbers and measuring the world.