VTCBench: Os Modelos de Visão e Linguagem Conseguem Compreender Contexto Longo com Compressão de Visão-Texto?

Resumo

Os custos computacionais e de memória associados à expansão da janela de contexto de LLMs limitam severamente sua escalabilidade. Uma solução notável é a compressão texto-visual (VTC), exemplificada por frameworks como DeepSeek-OCR e Glyph, que convertem textos longos em representações visuais 2D densas, alcançando assim taxas de compressão de tokens de 3x a 20x. No entanto, o impacto dessa alta densidade de informação nas capacidades centrais de contexto longo dos modelos de linguagem visual (VLMs) permanece pouco investigado. Para preencher essa lacuna, introduzimos o primeiro benchmark para VTC e avaliamos sistematicamente o desempenho de VLMs em três configurações de compreensão de contexto longo: VTC-Retrieval, que avalia a capacidade do modelo de recuperar e agregar informações; VTC-Reasoning, que requer que os modelos inferem associações latentes para localizar fatos com sobreposição lexical mínima; e VTC-Memory, que mede a resposta abrangente a perguntas dentro da memória de diálogo de longo prazo. Além disso, estabelecemos o VTCBench-Wild para simular cenários de entrada diversos. Avaliamos comprehensiveamente os principais modelos de código aberto e proprietários em nossos benchmarks. Os resultados indicam que, apesar de serem capazes de decodificar informações textuais (por exemplo, OCR) adequadamente, a maioria dos VLMs exibe uma capacidade de compreensão de contexto longo surpreendentemente fraca com informações comprimidas por VTC, falhando em capturar associações ou dependências longas no contexto. Este estudo fornece um entendimento profundo sobre VTC e serve como base para projetar VLMs mais eficientes e escaláveis.

English

The computational and memory overheads associated with expanding the context window of LLMs severely limit their scalability. A noteworthy solution is vision-text compression (VTC), exemplified by frameworks like DeepSeek-OCR and Glyph, which convert long texts into dense 2D visual representations, thereby achieving token compression ratios of 3x-20x. However, the impact of this high information density on the core long-context capabilities of vision-language models (VLMs) remains under-investigated. To address this gap, we introduce the first benchmark for VTC and systematically assess the performance of VLMs across three long-context understanding settings: VTC-Retrieval, which evaluates the model's ability to retrieve and aggregate information; VTC-Reasoning, which requires models to infer latent associations to locate facts with minimal lexical overlap; and VTC-Memory, which measures comprehensive question answering within long-term dialogue memory. Furthermore, we establish the VTCBench-Wild to simulate diverse input scenarios.We comprehensively evaluate leading open-source and proprietary models on our benchmarks. The results indicate that, despite being able to decode textual information (e.g., OCR) well, most VLMs exhibit a surprisingly poor long-context understanding ability with VTC-compressed information, failing to capture long associations or dependencies in the context.This study provides a deep understanding of VTC and serves as a foundation for designing more efficient and scalable VLMs.

VTCBench: Os Modelos de Visão e Linguagem Conseguem Compreender Contexto Longo com Compressão de Visão-Texto?

VTCBench: Can Vision-Language Models Understand Long Context with Vision-Text Compression?

Resumo

Support