ChatPaper.aiChatPaper

VTCBench: 視覚言語モデルは視覚-テキスト圧縮による長文脈理解が可能か?

VTCBench: Can Vision-Language Models Understand Long Context with Vision-Text Compression?

December 17, 2025
著者: Hongbo Zhao, Meng Wang, Fei Zhu, Wenzhuo Liu, Bolin Ni, Fanhu Zeng, Gaofeng Meng, Zhaoxiang Zhang
cs.AI

要旨

大規模言語モデル(LLM)のコンテキストウィンドウ拡大に伴う計算量とメモリのオーバーヘッドは、その拡張性を深刻に制限している。注目すべき解決策として、DeepSeek-OCRやGlyphなどのフレームワークに代表される視覚-テキスト圧縮(VTC)がある。これは長文を高密度な2次元視覚表現に変換することで、3倍から20倍のトークン圧縮率を実現する。しかし、この高い情報密度が視覚言語モデル(VLM)の中核的な長文理解能力に与える影響は、十分に研究されていない。この課題を解決するため、我々はVTC初のベンチマークを導入し、VLMの性能を3つの長文理解設定で体系的に評価する:情報の検索と統合能力を評価するVTC-Retrieval、語彙的重複が最小限の事実定位のために潜在的な関連性を推論することを要求するVTC-Reasoning、長期的な対話記憶内での総合的な質問応答を測定するVTC-Memoryである。さらに、多様な入力シナリオを模倣するVTCBench-Wildを確立した。オープンソースおよびプロプライエタリモデルの主要モデルをベンチマークで包括的に評価した結果、ほとんどのVLMはテキスト情報(OCRなど)のデコードは良好であるものの、VTC圧縮情報を用いた長文理解能力が驚くほど低く、文脈内の長い関連性や依存関係を捉えられないことが明らかになった。本研究はVTCに対する深い理解を提供し、より効率的で拡張性の高いVLM設計の基盤となる。
English
The computational and memory overheads associated with expanding the context window of LLMs severely limit their scalability. A noteworthy solution is vision-text compression (VTC), exemplified by frameworks like DeepSeek-OCR and Glyph, which convert long texts into dense 2D visual representations, thereby achieving token compression ratios of 3x-20x. However, the impact of this high information density on the core long-context capabilities of vision-language models (VLMs) remains under-investigated. To address this gap, we introduce the first benchmark for VTC and systematically assess the performance of VLMs across three long-context understanding settings: VTC-Retrieval, which evaluates the model's ability to retrieve and aggregate information; VTC-Reasoning, which requires models to infer latent associations to locate facts with minimal lexical overlap; and VTC-Memory, which measures comprehensive question answering within long-term dialogue memory. Furthermore, we establish the VTCBench-Wild to simulate diverse input scenarios.We comprehensively evaluate leading open-source and proprietary models on our benchmarks. The results indicate that, despite being able to decode textual information (e.g., OCR) well, most VLMs exhibit a surprisingly poor long-context understanding ability with VTC-compressed information, failing to capture long associations or dependencies in the context.This study provides a deep understanding of VTC and serves as a foundation for designing more efficient and scalable VLMs.
PDF53December 19, 2025