ChatPaper.aiChatPaper

VTCBench: Kunnen Vision-Language Modellen Lange Context Begrijpen met Visueel-Textuele Compressie?

VTCBench: Can Vision-Language Models Understand Long Context with Vision-Text Compression?

December 17, 2025
Auteurs: Hongbo Zhao, Meng Wang, Fei Zhu, Wenzhuo Liu, Bolin Ni, Fanhu Zeng, Gaofeng Meng, Zhaoxiang Zhang
cs.AI

Samenvatting

De computationele en geheugenoverhead die gepaard gaat met het vergroten van het contextvenster van LLM's beperkt de schaalbaarheid ervan aanzienlijk. Een opmerkelijke oplossing is visie-tekstcompressie (VTC), geïllustreerd door frameworks zoals DeepSeek-OCR en Glyph, die lange teksten omzetten in dense 2D-visuele representaties, waardoor tokencompressieratio's van 3x-20x worden bereikt. De impact van deze hoge informatiedichtheid op de kernmogelijkheden voor lange context in visie-taalmodellen (VLM's) blijft echter onderbelicht. Om deze leemte aan te pakken, introduceren we de eerste benchmark voor VTC en beoordelen we systematisch de prestaties van VLM's in drie instellingen voor lang-contextbegrip: VTC-Retrieval, dat het vermogen van het model evalueert om informatie op te halen en te aggregeren; VTC-Redeneren, dat van modellen vereist om latente associaties af te leiden om feiten te lokaliseren met minimale lexicale overlap; en VTC-Geheugen, dat uitgevraagde antwoorden meet binnen een langetermijndialooggeheugen. Verder stellen we de VTCBench-Wild in om diverse inputscenario's te simuleren. We evalueren uitgebreid toonaangevende open-source en propriëtaire modellen op onze benchmarks. De resultaten tonen aan dat, ondanks het feit dat ze tekstuele informatie (bijv. OCR) goed kunnen decoderen, de meeste VLM's een verrassend zwak lang-contextbegrip vertonen met VTC-gecomprimeerde informatie, waarbij ze er niet in slagen lange associaties of afhankelijkheden in de context vast te leggen. Deze studie biedt een diepgaand inzicht in VTC en dient als basis voor het ontwerpen van efficiëntere en beter schaalbare VLM's.
English
The computational and memory overheads associated with expanding the context window of LLMs severely limit their scalability. A noteworthy solution is vision-text compression (VTC), exemplified by frameworks like DeepSeek-OCR and Glyph, which convert long texts into dense 2D visual representations, thereby achieving token compression ratios of 3x-20x. However, the impact of this high information density on the core long-context capabilities of vision-language models (VLMs) remains under-investigated. To address this gap, we introduce the first benchmark for VTC and systematically assess the performance of VLMs across three long-context understanding settings: VTC-Retrieval, which evaluates the model's ability to retrieve and aggregate information; VTC-Reasoning, which requires models to infer latent associations to locate facts with minimal lexical overlap; and VTC-Memory, which measures comprehensive question answering within long-term dialogue memory. Furthermore, we establish the VTCBench-Wild to simulate diverse input scenarios.We comprehensively evaluate leading open-source and proprietary models on our benchmarks. The results indicate that, despite being able to decode textual information (e.g., OCR) well, most VLMs exhibit a surprisingly poor long-context understanding ability with VTC-compressed information, failing to capture long associations or dependencies in the context.This study provides a deep understanding of VTC and serves as a foundation for designing more efficient and scalable VLMs.
PDF53December 19, 2025