ChatPaper.aiChatPaper

VISTA-Bench: Verstehen Vision-Language-Modelle visualisierten Text wirklich so gut wie reinen Text?

VISTA-Bench: Do Vision-Language Models Really Understand Visualized Text as Well as Pure Text?

February 4, 2026
papers.authors: Qing'an Liu, Juntong Feng, Yuhao Wang, Xinzhe Han, Yujie Cheng, Yue Zhu, Haiwen Diao, Yunzhi Zhuge, Huchuan Lu
cs.AI

papers.abstract

Vision-Language Models (VLMs) haben beeindruckende Leistungen im cross-modalen Verständnis von textuellen und visuellen Eingaben erzielt, doch bestehende Benchmarks konzentrieren sich überwiegend auf reine Textanfragen. In realen Szenarien erscheint Sprache jedoch häufig auch als visualisierter Text, der in Bilder eingebettet ist. Dies wirft die Frage auf, ob aktuelle VLMs solche Eingabeanfragen vergleichbar gut verarbeiten. Wir stellen VISTA-Bench vor, einen systematischen Benchmark, der von multimodaler Wahrnehmung über Reasoning bis hin zu unimodalen Verständnisdomänen reicht. Er evaluiert das Verständnis von visualisiertem Text, indem reine Textfragen und visualisierte Textfragen unter kontrollierten Darstellungsbedingungen gegenübergestellt werden. Eine umfassende Evaluation von über 20 repräsentativen VLMs zeigt eine deutliche Modalitätslücke: Modelle, die bei reinen Textanfragen gut abschneiden, verschlechtern sich oft erheblich, wenn äquivalente semantische Inhalte als visualisierter Text präsentiert werden. Diese Lücke wird durch erhöhte perzeptive Schwierigkeit weiter verstärkt, was die Sensitivität gegenüber Darstellungsvariationen trotz unveränderter Semantik unterstreicht. Insgesamt bietet VISTA-Bench einen prinzipiellen Evaluierungsrahmen, um diese Einschränkung zu diagnostizieren und Fortschritte hin zu einheitlicheren Sprachrepräsentationen über tokenisierten Text und Pixel hinweg zu lenken. Der Quelldatensatz ist verfügbar unter https://github.com/QingAnLiu/VISTA-Bench.
English
Vision-Language Models (VLMs) have achieved impressive performance in cross-modal understanding across textual and visual inputs, yet existing benchmarks predominantly focus on pure-text queries. In real-world scenarios, language also frequently appears as visualized text embedded in images, raising the question of whether current VLMs handle such input requests comparably. We introduce VISTA-Bench, a systematic benchmark from multimodal perception, reasoning, to unimodal understanding domains. It evaluates visualized text understanding by contrasting pure-text and visualized-text questions under controlled rendering conditions. Extensive evaluation of over 20 representative VLMs reveals a pronounced modality gap: models that perform well on pure-text queries often degrade substantially when equivalent semantic content is presented as visualized text. This gap is further amplified by increased perceptual difficulty, highlighting sensitivity to rendering variations despite unchanged semantics. Overall, VISTA-Bench provides a principled evaluation framework to diagnose this limitation and to guide progress toward more unified language representations across tokenized text and pixels. The source dataset is available at https://github.com/QingAnLiu/VISTA-Bench.
PDF11February 12, 2026