VTCBench: 비전-언어 모델은 비전-텍스트 압축을 통해 긴 문맥을 이해할 수 있는가?
VTCBench: Can Vision-Language Models Understand Long Context with Vision-Text Compression?
December 17, 2025
저자: Hongbo Zhao, Meng Wang, Fei Zhu, Wenzhuo Liu, Bolin Ni, Fanhu Zeng, Gaofeng Meng, Zhaoxiang Zhang
cs.AI
초록
LLM의 컨텍스트 윈도우 확장과 관련된 계산 및 메모리 오버헤드는 확장성을 심각하게 제한합니다. 주목할 만한 해결책으로는 DeepSeek-OCR 및 Glyph와 같은 프레임워크에서 예시되는 시각-텍스트 압축(VTC)이 있으며, 이는 긴 텍스트를 고밀도 2D 시각적 표현으로 변환하여 3~20배의 토큰 압축률을 달성합니다. 그러나 이러한 높은 정보 밀도가 시각-언어 모델(VLM)의 핵심 장문 컨텍스트 능력에 미치는 영향은 아직 충분히 연구되지 않았습니다. 이러한 격차를 해결하기 위해 우리는 VTC를 위한 최초의 벤치마크를 도입하고 세 가지 장문 컨텍스트 이해 설정에서 VLM의 성능을 체계적으로 평가합니다: 정보를 검색 및 통합하는 모델의 능력을 평가하는 VTC-검색, 최소한의 어휘 중복으로 사실을 찾기 위해 잠재적 연관성을 추론해야 하는 VTC-추론, 그리고 장기 대화 메모리 내 포괄적인 질의응답을 측정하는 VTC-메모리입니다. 더 나아가 다양한 입력 시나리오를 모의 실험하기 위해 VTCBench-Wild를 구축했습니다. 우리는 벤치마크를 통해 주요 오픈소스 및 독점 모델을 포괄적으로 평가했습니다. 결과에 따르면, 대부분의 VLM이 텍스트 정보(예: OCR)는 잘 디코딩할 수 있지만, VTC로 압축된 정보에 대한 장문 컨텍스트 이해 능력은 놀랍도록 낮아 컨텍스트 내 긴 연관성이나 의존성을 파악하지 못하는 것으로 나타났습니다. 본 연구는 VTC에 대한 깊은 이해를 제공하며, 더 효율적이고 확장 가능한 VLM 설계의 기초를 마련합니다.
English
The computational and memory overheads associated with expanding the context window of LLMs severely limit their scalability. A noteworthy solution is vision-text compression (VTC), exemplified by frameworks like DeepSeek-OCR and Glyph, which convert long texts into dense 2D visual representations, thereby achieving token compression ratios of 3x-20x. However, the impact of this high information density on the core long-context capabilities of vision-language models (VLMs) remains under-investigated. To address this gap, we introduce the first benchmark for VTC and systematically assess the performance of VLMs across three long-context understanding settings: VTC-Retrieval, which evaluates the model's ability to retrieve and aggregate information; VTC-Reasoning, which requires models to infer latent associations to locate facts with minimal lexical overlap; and VTC-Memory, which measures comprehensive question answering within long-term dialogue memory. Furthermore, we establish the VTCBench-Wild to simulate diverse input scenarios.We comprehensively evaluate leading open-source and proprietary models on our benchmarks. The results indicate that, despite being able to decode textual information (e.g., OCR) well, most VLMs exhibit a surprisingly poor long-context understanding ability with VTC-compressed information, failing to capture long associations or dependencies in the context.This study provides a deep understanding of VTC and serves as a foundation for designing more efficient and scalable VLMs.