VTCBench: Können Vision-Language-Modelle langen Kontext mit Bild-Text-Kompression verstehen?
VTCBench: Can Vision-Language Models Understand Long Context with Vision-Text Compression?
December 17, 2025
papers.authors: Hongbo Zhao, Meng Wang, Fei Zhu, Wenzhuo Liu, Bolin Ni, Fanhu Zeng, Gaofeng Meng, Zhaoxiang Zhang
cs.AI
papers.abstract
Die mit der Erweiterung des Kontextfensters von LLMs verbundenen Rechen- und Speicheraufwände schränken deren Skalierbarkeit erheblich ein. Eine bemerkenswerte Lösung ist die Vision-Text-Kompression (VTC), die durch Frameworks wie DeepSeek-OCR und Glyph veranschaulicht wird und lange Texte in dichte 2D-Visualisierungen umwandelt, wodurch Token-Kompressionsraten von 3x bis 20x erreicht werden. Die Auswirkungen dieser hohen Informationsdichte auf die zentralen Langkontextfähigkeiten von Vision-Language-Models (VLMs) sind jedoch noch unzureichend erforscht. Um diese Lücke zu schließen, führen wir den ersten Benchmark für VTC ein und bewerten systematisch die Leistung von VLMs in drei Langkontext-Verständnisszenarien: VTC-Retrieval, das die Fähigkeit des Modells zur Informationsabfrage und -aggregation bewertet; VTC-Reasoning, das von Modellen das Ableiten latenter Assoziationen zur Faktenlokalisierung bei minimaler lexikalischer Überlappung erfordert; und VTC-Memory, das umfassende Fragebeantwortung im Langzeitdialoggedächtnis misst. Zusätzlich etablieren wir VTCBench-Wild zur Simulation diverser Eingabeszenarien. Wir evaluieren umfassend führende Open-Source- und proprietäre Modelle anhand unserer Benchmarks. Die Ergebnisse zeigen, dass die meisten VLMs – obwohl sie Textinformationen (z.B. via OCR) gut decodieren können – überraschend schwache Langkontext-Verständnisfähigkeiten bei VTC-komprimierten Informationen aufweisen und lange Assoziationen oder Abhängigkeiten im Kontext nicht erfassen können. Diese Studie liefert ein vertieftes Verständnis von VTC und bildet eine Grundlage für die Entwicklung effizienterer und skalierbarer VLMs.
English
The computational and memory overheads associated with expanding the context window of LLMs severely limit their scalability. A noteworthy solution is vision-text compression (VTC), exemplified by frameworks like DeepSeek-OCR and Glyph, which convert long texts into dense 2D visual representations, thereby achieving token compression ratios of 3x-20x. However, the impact of this high information density on the core long-context capabilities of vision-language models (VLMs) remains under-investigated. To address this gap, we introduce the first benchmark for VTC and systematically assess the performance of VLMs across three long-context understanding settings: VTC-Retrieval, which evaluates the model's ability to retrieve and aggregate information; VTC-Reasoning, which requires models to infer latent associations to locate facts with minimal lexical overlap; and VTC-Memory, which measures comprehensive question answering within long-term dialogue memory. Furthermore, we establish the VTCBench-Wild to simulate diverse input scenarios.We comprehensively evaluate leading open-source and proprietary models on our benchmarks. The results indicate that, despite being able to decode textual information (e.g., OCR) well, most VLMs exhibit a surprisingly poor long-context understanding ability with VTC-compressed information, failing to capture long associations or dependencies in the context.This study provides a deep understanding of VTC and serves as a foundation for designing more efficient and scalable VLMs.