ChatPaper.aiChatPaper

VISTA-Bench : Les modèles vision-langage comprennent-ils vraiment le texte visualisé aussi bien que le texte brut ?

VISTA-Bench: Do Vision-Language Models Really Understand Visualized Text as Well as Pure Text?

February 4, 2026
papers.authors: Qing'an Liu, Juntong Feng, Yuhao Wang, Xinzhe Han, Yujie Cheng, Yue Zhu, Haiwen Diao, Yunzhi Zhuge, Huchuan Lu
cs.AI

papers.abstract

Les modèles vision-langage (VLM) ont obtenu des performances impressionnantes dans la compréhension intermodale des entrées textuelles et visuelles, mais les benchmarks existants se concentrent principalement sur des requêtes en texte pur. Dans les scénarios réels, le langage apparaît également fréquemment sous forme de texte visualisé intégré dans des images, ce qui soulève la question de savoir si les VLM actuels traitent ces demandes d'entrée de manière comparable. Nous présentons VISTA-Bench, un benchmark systématique couvrant les domaines de la perception multimodale, du raisonnement et de la compréhension unimodale. Il évalue la compréhension du texte visualisé en confrontant des questions en texte pur et en texte visualisé dans des conditions de rendu contrôlées. Une évaluation approfondie de plus de 20 VLM représentatifs révèle un écart de modalité prononcé : les modèles qui performent bien sur les requêtes en texte pur voient souvent leurs performances se dégrader substantiellement lorsque le contenu sémantique équivalent est présenté sous forme de texte visualisé. Cet écart est encore amplifié par une difficulté perceptuelle accrue, mettant en évidence une sensibilité aux variations de rendu malgré une sémantique inchangée. Globalement, VISTA-Bench fournit un cadre d'évaluation principiel pour diagnostiquer cette limitation et pour guider les progrès vers des représentations linguistiques plus unifiées entre le texte tokenisé et les pixels. Le jeu de données source est disponible à l'adresse https://github.com/QingAnLiu/VISTA-Bench.
English
Vision-Language Models (VLMs) have achieved impressive performance in cross-modal understanding across textual and visual inputs, yet existing benchmarks predominantly focus on pure-text queries. In real-world scenarios, language also frequently appears as visualized text embedded in images, raising the question of whether current VLMs handle such input requests comparably. We introduce VISTA-Bench, a systematic benchmark from multimodal perception, reasoning, to unimodal understanding domains. It evaluates visualized text understanding by contrasting pure-text and visualized-text questions under controlled rendering conditions. Extensive evaluation of over 20 representative VLMs reveals a pronounced modality gap: models that perform well on pure-text queries often degrade substantially when equivalent semantic content is presented as visualized text. This gap is further amplified by increased perceptual difficulty, highlighting sensitivity to rendering variations despite unchanged semantics. Overall, VISTA-Bench provides a principled evaluation framework to diagnose this limitation and to guide progress toward more unified language representations across tokenized text and pixels. The source dataset is available at https://github.com/QingAnLiu/VISTA-Bench.
PDF11February 12, 2026