VISTA-Bench: I modelli visione-linguaggio comprendono davvero il testo visualizzato così come il testo puro?

Abstract

I modelli visione-linguaggio (VLM) hanno ottenuto prestazioni impressionanti nella comprensione cross-modale di input testuali e visivi, tuttavia i benchmark esistenti si concentrano prevalentemente su query di puro testo. Negli scenari reali, il linguaggio appare frequentemente anche come testo visualizzato incorporato nelle immagini, sollevando la questione se gli attuali VLM gestiscano tali richieste di input in modo comparabile. Introduciamo VISTA-Bench, un benchmark sistematico che spazia dai domini della percezione multimodale e del ragionamento fino alla comprensione unimodale. Esso valuta la comprensione del testo visualizzato contrapponendo domande in puro testo e in testo visualizzato in condizioni di rendering controllate. Una valutazione estesa di oltre 20 VLM rappresentativi rivela un marcato divario modale: i modelli che performano bene su query di puro testo spesso si deteriorano sostanzialmente quando contenuti semantici equivalenti sono presentati come testo visualizzato. Questo divario è ulteriormente amplificato da una maggiore difficoltà percettiva, evidenziando una sensibilità alle variazioni di rendering nonostante la semantica invariata. Complessivamente, VISTA-Bench fornisce un framework di valutazione principiato per diagnosticare questa limitazione e guidare il progresso verso rappresentazioni linguistiche più unificate tra testo tokenizzato e pixel. Il dataset sorgente è disponibile all'indirizzo https://github.com/QingAnLiu/VISTA-Bench.

English

Vision-Language Models (VLMs) have achieved impressive performance in cross-modal understanding across textual and visual inputs, yet existing benchmarks predominantly focus on pure-text queries. In real-world scenarios, language also frequently appears as visualized text embedded in images, raising the question of whether current VLMs handle such input requests comparably. We introduce VISTA-Bench, a systematic benchmark from multimodal perception, reasoning, to unimodal understanding domains. It evaluates visualized text understanding by contrasting pure-text and visualized-text questions under controlled rendering conditions. Extensive evaluation of over 20 representative VLMs reveals a pronounced modality gap: models that perform well on pure-text queries often degrade substantially when equivalent semantic content is presented as visualized text. This gap is further amplified by increased perceptual difficulty, highlighting sensitivity to rendering variations despite unchanged semantics. Overall, VISTA-Bench provides a principled evaluation framework to diagnose this limitation and to guide progress toward more unified language representations across tokenized text and pixels. The source dataset is available at https://github.com/QingAnLiu/VISTA-Bench.

VISTA-Bench: I modelli visione-linguaggio comprendono davvero il testo visualizzato così come il testo puro?

VISTA-Bench: Do Vision-Language Models Really Understand Visualized Text as Well as Pure Text?

Abstract

Support