VISTA-Bench: Os Modelos de Visão e Linguagem Realmente Compreendem Texto Visualizado Tão Bem Quanto Texto Puro?

Resumo

Os Modelos de Visão e Linguagem (VLMs) alcançaram desempenho impressionante na compreensão multimodal entre entradas textuais e visuais, porém os benchmarks existentes concentram-se predominantemente em consultas de texto puro. Em cenários do mundo real, a linguagem também aparece frequentemente como texto visualizado incorporado em imagens, levantando a questão de saber se os VLMs atuais lidam com tais solicitações de entrada de forma comparável. Apresentamos o VISTA-Bench, um benchmark sistemático que abrange desde domínios de percepção multimodal e raciocínio até compreensão unimodal. Ele avalia a compreensão de texto visualizado contrastando questões de texto puro e texto visualizado sob condições controladas de renderização. Uma avaliação extensa de mais de 20 VLMs representativos revela uma lacuna de modalidade pronunciada: modelos que se saem bem em consultas de texto puro frequentemente apresentam degradação substancial quando conteúdo semântico equivalente é apresentado como texto visualizado. Essa lacuna é ainda amplificada pelo aumento da dificuldade perceptual, destacando a sensibilidade a variações de renderização apesar da semântica inalterada. No geral, o VISTA-Bench fornece uma estrutura de avaliação fundamentada para diagnosticar essa limitação e orientar o progresso em direção a representações de linguagem mais unificadas entre texto tokenizado e pixels. O conjunto de dados fonte está disponível em https://github.com/QingAnLiu/VISTA-Bench.

English

Vision-Language Models (VLMs) have achieved impressive performance in cross-modal understanding across textual and visual inputs, yet existing benchmarks predominantly focus on pure-text queries. In real-world scenarios, language also frequently appears as visualized text embedded in images, raising the question of whether current VLMs handle such input requests comparably. We introduce VISTA-Bench, a systematic benchmark from multimodal perception, reasoning, to unimodal understanding domains. It evaluates visualized text understanding by contrasting pure-text and visualized-text questions under controlled rendering conditions. Extensive evaluation of over 20 representative VLMs reveals a pronounced modality gap: models that perform well on pure-text queries often degrade substantially when equivalent semantic content is presented as visualized text. This gap is further amplified by increased perceptual difficulty, highlighting sensitivity to rendering variations despite unchanged semantics. Overall, VISTA-Bench provides a principled evaluation framework to diagnose this limitation and to guide progress toward more unified language representations across tokenized text and pixels. The source dataset is available at https://github.com/QingAnLiu/VISTA-Bench.

VISTA-Bench: Os Modelos de Visão e Linguagem Realmente Compreendem Texto Visualizado Tão Bem Quanto Texto Puro?

VISTA-Bench: Do Vision-Language Models Really Understand Visualized Text as Well as Pure Text?

Resumo

Support