ChatPaper.aiChatPaper

VISTA-Bench:視覚言語モデルは、純粋なテキストと同程度に可視化されたテキストを本当に理解しているのか?

VISTA-Bench: Do Vision-Language Models Really Understand Visualized Text as Well as Pure Text?

February 4, 2026
著者: Qing'an Liu, Juntong Feng, Yuhao Wang, Xinzhe Han, Yujie Cheng, Yue Zhu, Haiwen Diao, Yunzhi Zhuge, Huchuan Lu
cs.AI

要旨

視覚言語モデル(VLM)は、テキストと視覚入力を跨ぐクロスモーダル理解において顕著な性能を達成しているが、既存のベンチマークは主に純粋なテキストクエリに焦点を当てている。現実のシナリオでは、言語は画像に埋め込まれた可視化テキストとしても頻繁に現れるため、現在のVLMがそのような入力要求を同等に扱えるかどうかが問題となる。本論文では、マルチモーダル知覚、推論からユニモーダル理解領域に至る体系的なベンチマークであるVISTA-Benchを提案する。これは、制御された描画条件下で純粋テキスト質問と可視化テキスト質問を対比させることで、可視化テキストの理解を評価する。20以上の代表的なVLMに対する大規模な評価により、顕著なモダリティギャップが明らかになった:純粋なテキストクエリで良好な性能を示すモデルは、同等の意味内容が可視化テキストとして提示されると、しばしば性能が大幅に低下する。このギャップは、知覚的難易度の増加によってさらに増幅され、意味が変化しないにもかかわらず描画の変動に対する感受性が浮き彫りとなる。総じて、VISTA-Benchはこの限界を診断し、トークン化されたテキストとピクセルを跨ぐより統一的な言語表現への進歩を導くための原理的な評価枠組みを提供する。ソースデータセットはhttps://github.com/QingAnLiu/VISTA-Bench で公開されている。
English
Vision-Language Models (VLMs) have achieved impressive performance in cross-modal understanding across textual and visual inputs, yet existing benchmarks predominantly focus on pure-text queries. In real-world scenarios, language also frequently appears as visualized text embedded in images, raising the question of whether current VLMs handle such input requests comparably. We introduce VISTA-Bench, a systematic benchmark from multimodal perception, reasoning, to unimodal understanding domains. It evaluates visualized text understanding by contrasting pure-text and visualized-text questions under controlled rendering conditions. Extensive evaluation of over 20 representative VLMs reveals a pronounced modality gap: models that perform well on pure-text queries often degrade substantially when equivalent semantic content is presented as visualized text. This gap is further amplified by increased perceptual difficulty, highlighting sensitivity to rendering variations despite unchanged semantics. Overall, VISTA-Bench provides a principled evaluation framework to diagnose this limitation and to guide progress toward more unified language representations across tokenized text and pixels. The source dataset is available at https://github.com/QingAnLiu/VISTA-Bench.
PDF11February 12, 2026