ChatPaper.aiChatPaper

VISTA-Bench: 비전-언어 모델은 정말로 순수 텍스트만큼 시각화된 텍스트를 잘 이해할까?

VISTA-Bench: Do Vision-Language Models Really Understand Visualized Text as Well as Pure Text?

February 4, 2026
저자: Qing'an Liu, Juntong Feng, Yuhao Wang, Xinzhe Han, Yujie Cheng, Yue Zhu, Haiwen Diao, Yunzhi Zhuge, Huchuan Lu
cs.AI

초록

비전-언어 모델(VLM)은 텍스트와 시각 입력 간의 크로스모달 이해에서 인상적인 성능을 달성했지만, 기존 벤치마크는 주로 순수 텍스트 쿼리에 집중하고 있습니다. 실제 세계 시나리오에서는 언어가 이미지에 내재된 시각화된 텍스트 형태로도 빈번하게 등장하는데, 이는 현재 VLM이 그러한 입력 요청을 동등하게 처리하는지에 대한 의문을 제기합니다. 우리는 다중모달 인식, 추론부터 단일모달 이해 영역에 이르는 체계적인 벤치마크인 VISTA-Bench를 소개합니다. 이 벤치마크는 통제된 렌더링 조건 하에서 순수 텍스트 질문과 시각화된 텍스트 질문을 대조함으로써 시각화된 텍스트 이해 능력을 평가합니다. 20개 이상의 대표적인 VLM에 대한 포괄적인 평가 결과, 두드러진 모달리티 간 격차가 확인되었습니다: 순수 텍스트 쿼리에서 우수한 성능을 보이는 모델들은 동일한 의미론적 내용이 시각화된 텍스트로 제시될 경우 종종 성능이 현저히 저하됩니다. 이 격차는 인지적 난이도가 증가함에 따라 더욱 확대되며, 의미론은 변경되지 않았음에도 렌더링 변이에 대한 민감성을 부각시킵니다. 전반적으로 VISTA-Bench는 이러한 한계를 진단하고, 토큰화된 텍스트와 픽셀을 아우르는 더 통합된 언어 표현을 향한 진전을 이끌기 위한 원칙적인 평가 프레임워크를 제공합니다. 소스 데이터셋은 https://github.com/QingAnLiu/VISTA-Bench에서 이용 가능합니다.
English
Vision-Language Models (VLMs) have achieved impressive performance in cross-modal understanding across textual and visual inputs, yet existing benchmarks predominantly focus on pure-text queries. In real-world scenarios, language also frequently appears as visualized text embedded in images, raising the question of whether current VLMs handle such input requests comparably. We introduce VISTA-Bench, a systematic benchmark from multimodal perception, reasoning, to unimodal understanding domains. It evaluates visualized text understanding by contrasting pure-text and visualized-text questions under controlled rendering conditions. Extensive evaluation of over 20 representative VLMs reveals a pronounced modality gap: models that perform well on pure-text queries often degrade substantially when equivalent semantic content is presented as visualized text. This gap is further amplified by increased perceptual difficulty, highlighting sensitivity to rendering variations despite unchanged semantics. Overall, VISTA-Bench provides a principled evaluation framework to diagnose this limitation and to guide progress toward more unified language representations across tokenized text and pixels. The source dataset is available at https://github.com/QingAnLiu/VISTA-Bench.
PDF11February 12, 2026