VTCBench: ¿Pueden los Modelos de Visión y Lenguaje Comprender Contextos Largos con Compresión de Visión y Texto?
VTCBench: Can Vision-Language Models Understand Long Context with Vision-Text Compression?
December 17, 2025
Autores: Hongbo Zhao, Meng Wang, Fei Zhu, Wenzhuo Liu, Bolin Ni, Fanhu Zeng, Gaofeng Meng, Zhaoxiang Zhang
cs.AI
Resumen
Los costes computacionales y de memoria asociados a la expansión de la ventana contextual de los LLM limitan severamente su escalabilidad. Una solución notable es la compresión texto-visual (VTC), ejemplificada por marcos como DeepSeek-OCR y Glyph, que convierten textos largos en representaciones visuales 2D densas, logrando así ratios de compresión de tokens de 3x a 20x. Sin embargo, el impacto de esta alta densidad de información en las capacidades centrales de contexto largo de los modelos de lenguaje visual (VLM) sigue estando poco investigado. Para abordar esta brecha, presentamos el primer benchmark para VTC y evaluamos sistemáticamente el rendimiento de los VLM en tres escenarios de comprensión de contexto largo: VTC-Recuperación, que evalúa la capacidad del modelo para recuperar y agregar información; VTC-Razonamiento, que requiere que los modelos infieran asociaciones latentes para localizar hechos con superposición léxica mínima; y VTC-Memoria, que mide la respuesta a preguntas dentro de la memoria de diálogo a largo plazo. Además, establecemos VTCBench-Wild para simular diversos escenarios de entrada. Evaluamos exhaustivamente modelos líderes de código abierto y propietarios en nuestros benchmarks. Los resultados indican que, a pesar de poder decodificar bien la información textual (por ejemplo, OCR), la mayoría de los VLM muestran una capacidad de comprensión de contexto largo sorprendentemente pobre con información comprimida VTC, sin lograr capturar asociaciones o dependencias largas en el contexto. Este estudio proporciona una comprensión profunda de VTC y sirve como base para diseñar VLM más eficientes y escalables.
English
The computational and memory overheads associated with expanding the context window of LLMs severely limit their scalability. A noteworthy solution is vision-text compression (VTC), exemplified by frameworks like DeepSeek-OCR and Glyph, which convert long texts into dense 2D visual representations, thereby achieving token compression ratios of 3x-20x. However, the impact of this high information density on the core long-context capabilities of vision-language models (VLMs) remains under-investigated. To address this gap, we introduce the first benchmark for VTC and systematically assess the performance of VLMs across three long-context understanding settings: VTC-Retrieval, which evaluates the model's ability to retrieve and aggregate information; VTC-Reasoning, which requires models to infer latent associations to locate facts with minimal lexical overlap; and VTC-Memory, which measures comprehensive question answering within long-term dialogue memory. Furthermore, we establish the VTCBench-Wild to simulate diverse input scenarios.We comprehensively evaluate leading open-source and proprietary models on our benchmarks. The results indicate that, despite being able to decode textual information (e.g., OCR) well, most VLMs exhibit a surprisingly poor long-context understanding ability with VTC-compressed information, failing to capture long associations or dependencies in the context.This study provides a deep understanding of VTC and serves as a foundation for designing more efficient and scalable VLMs.