VISTA-Bench: Begrijpen vision-language modellen gevisualiseerde tekst echt even goed als pure tekst?

Samenvatting

Vision-Language Models (VLMs) hebben indrukwekkende prestaties geleverd in cross-modale begrip van tekstuele en visuele invoer, maar bestaande benchmarks richten zich voornamelijk op zuiver tekstuele vragen. In realistische scenario's verschijnt taal echter ook vaak als gevisualiseerde tekst die in afbeeldingen is ingebed, wat de vraag opwerpt of huidige VLMs dergelijke invoerverzoeken vergelijkbaar goed verwerken. Wij introduceren VISTA-Bench, een systematische benchmark die zich uitstrekt van multimodale perceptie en redenering tot unimodale begripsdomeinen. Het evalueert het begrip van gevisualiseerde tekst door vragen met zuivere tekst en gevisualiseerde tekst onder gecontroleerde weergavecondities te vergelijken. Een uitgebreide evaluatie van meer dan 20 representatieve VLMs onthult een aanzienlijke modaliteitskloof: modellen die goed presteren op zuiver tekstuele vragen, gaan vaak aanzienlijk achteruit wanneer equivalente semantische inhoud als gevisualiseerde tekst wordt gepresenteerd. Deze kloof wordt verder versterkt door een toegenomen perceptuele moeilijkheidsgraad, wat de gevoeligheid voor weergavevariaties benadrukt ondanks ongewijzigde semantiek. Over het algemeen biedt VISTA-Bench een principieel evaluatieraamwerk om deze beperking te diagnosticeren en vooruitgang te begeleiden naar meer uniforme taalrepresentaties over getokeniseerde tekst en pixels heen. De brondataset is beschikbaar op https://github.com/QingAnLiu/VISTA-Bench.

English

Vision-Language Models (VLMs) have achieved impressive performance in cross-modal understanding across textual and visual inputs, yet existing benchmarks predominantly focus on pure-text queries. In real-world scenarios, language also frequently appears as visualized text embedded in images, raising the question of whether current VLMs handle such input requests comparably. We introduce VISTA-Bench, a systematic benchmark from multimodal perception, reasoning, to unimodal understanding domains. It evaluates visualized text understanding by contrasting pure-text and visualized-text questions under controlled rendering conditions. Extensive evaluation of over 20 representative VLMs reveals a pronounced modality gap: models that perform well on pure-text queries often degrade substantially when equivalent semantic content is presented as visualized text. This gap is further amplified by increased perceptual difficulty, highlighting sensitivity to rendering variations despite unchanged semantics. Overall, VISTA-Bench provides a principled evaluation framework to diagnose this limitation and to guide progress toward more unified language representations across tokenized text and pixels. The source dataset is available at https://github.com/QingAnLiu/VISTA-Bench.

VISTA-Bench: Begrijpen vision-language modellen gevisualiseerde tekst echt even goed als pure tekst?

VISTA-Bench: Do Vision-Language Models Really Understand Visualized Text as Well as Pure Text?

Samenvatting

Support