VTCBench: I Modelli Visione-Linguaggio Possono Comprendere Contesti Lunghi con la Compressione Visione-Testo?
VTCBench: Can Vision-Language Models Understand Long Context with Vision-Text Compression?
December 17, 2025
Autori: Hongbo Zhao, Meng Wang, Fei Zhu, Wenzhuo Liu, Bolin Ni, Fanhu Zeng, Gaofeng Meng, Zhaoxiang Zhang
cs.AI
Abstract
I costi computazionali e di memoria associati all'espansione della finestra contestuale degli LLM ne limitano severamente la scalabilità. Una soluzione degna di nota è la compressione visivo-testuale (VTC), esemplificata da framework come DeepSeek-OCR e Glyph, che convertono testi lunghi in dense rappresentazioni visive 2D, ottenendo così rapporti di compressione dei token di 3x-20x. Tuttavia, l'impatto di questa elevata densità informativa sulle capacità fondamentali di comprensione del contesto lungo dei modelli visione-linguaggio (VLM) rimane poco indagato. Per colmare questa lacuna, introduciamo il primo benchmark per la VTC e valutiamo sistematicamente le prestazioni dei VLM in tre scenari di comprensione del contesto lungo: VTC-Retrieval, che valuta la capacità del modello di recuperare e aggregare informazioni; VTC-Reasoning, che richiede ai modelli di inferire associazioni latenti per localizzare fatti con sovrapposizione lessicale minima; e VTC-Memory, che misura la capacità di risposta a domande all'interno di una memoria dialogica a lungo termine. Inoltre, istituiamo il VTCBench-Wild per simulare scenari di input diversificati. Valutiamo in modo completo i principali modelli open-source e proprietari sui nostri benchmark. I risultati indicano che, nonostante siano in grado di decodificare bene le informazioni testuali (ad es., OCR), la maggior parte dei VLM mostra una sorprendentemente scarsa capacità di comprensione del contesto lungo con informazioni compresse tramite VTC, fallendo nel cogliere associazioni o dipendenze lunghe nel contesto. Questo studio fornisce una comprensione approfondita della VTC e funge da base per la progettazione di VLM più efficienti e scalabili.
English
The computational and memory overheads associated with expanding the context window of LLMs severely limit their scalability. A noteworthy solution is vision-text compression (VTC), exemplified by frameworks like DeepSeek-OCR and Glyph, which convert long texts into dense 2D visual representations, thereby achieving token compression ratios of 3x-20x. However, the impact of this high information density on the core long-context capabilities of vision-language models (VLMs) remains under-investigated. To address this gap, we introduce the first benchmark for VTC and systematically assess the performance of VLMs across three long-context understanding settings: VTC-Retrieval, which evaluates the model's ability to retrieve and aggregate information; VTC-Reasoning, which requires models to infer latent associations to locate facts with minimal lexical overlap; and VTC-Memory, which measures comprehensive question answering within long-term dialogue memory. Furthermore, we establish the VTCBench-Wild to simulate diverse input scenarios.We comprehensively evaluate leading open-source and proprietary models on our benchmarks. The results indicate that, despite being able to decode textual information (e.g., OCR) well, most VLMs exhibit a surprisingly poor long-context understanding ability with VTC-compressed information, failing to capture long associations or dependencies in the context.This study provides a deep understanding of VTC and serves as a foundation for designing more efficient and scalable VLMs.