ChatPaper.aiChatPaper

VTCBench : Les modèles vision-langage peuvent-ils comprendre le contexte long avec la compression vision-texte ?

VTCBench: Can Vision-Language Models Understand Long Context with Vision-Text Compression?

December 17, 2025
papers.authors: Hongbo Zhao, Meng Wang, Fei Zhu, Wenzhuo Liu, Bolin Ni, Fanhu Zeng, Gaofeng Meng, Zhaoxiang Zhang
cs.AI

papers.abstract

Les surcharges computationnelles et mémoire associées à l'extension de la fenêtre contextuelle des LLM limitent sévèrement leur extensibilité. Une solution notable est la compression visuo-textuelle (VTC), illustrée par des frameworks comme DeepSeek-OCR et Glyph, qui convertissent de longs textes en représentations visuelles 2D denses, permettant ainsi d'atteindre des taux de compression de 3x à 20x. Cependant, l'impact de cette haute densité informationnelle sur les capacités fondamentales de compréhension de contexte long des modèles vision-langage (VLM) reste insuffisamment étudié. Pour combler cette lacune, nous introduisons le premier benchmark dédié à la VTC et évaluons systématiquement les performances des VLM selon trois axes de compréhension contextuelle longue : VTC-Retrieval, qui évalue la capacité du modèle à récupérer et agréger l'information ; VTC-Reasoning, qui requiert des inférences sur des associations latentes pour localiser des faits avec un chevauchement lexical minimal ; et VTC-Memory, qui mesure la compréhension globale via des questions-réponses dans une mémoire dialogique étendue. Nous établissons également VTCBench-Wild pour simuler divers scénarios d'entrée. Une évaluation exhaustive des modèles open-source et propriétaires leaders sur nos benchmarks révèle que, bien que capables de décoder correctement l'information textuelle (ex: OCR), la plupart des VLM présentent une capacité étonnamment faible à comprendre les contextes longs compressés par VTC, échouant à capturer les associations ou dépendances distantes. Cette étude offre une compréhension approfondie de la VTC et jette les bases pour concevoir des VLM plus efficaces et évolutifs.
English
The computational and memory overheads associated with expanding the context window of LLMs severely limit their scalability. A noteworthy solution is vision-text compression (VTC), exemplified by frameworks like DeepSeek-OCR and Glyph, which convert long texts into dense 2D visual representations, thereby achieving token compression ratios of 3x-20x. However, the impact of this high information density on the core long-context capabilities of vision-language models (VLMs) remains under-investigated. To address this gap, we introduce the first benchmark for VTC and systematically assess the performance of VLMs across three long-context understanding settings: VTC-Retrieval, which evaluates the model's ability to retrieve and aggregate information; VTC-Reasoning, which requires models to infer latent associations to locate facts with minimal lexical overlap; and VTC-Memory, which measures comprehensive question answering within long-term dialogue memory. Furthermore, we establish the VTCBench-Wild to simulate diverse input scenarios.We comprehensively evaluate leading open-source and proprietary models on our benchmarks. The results indicate that, despite being able to decode textual information (e.g., OCR) well, most VLMs exhibit a surprisingly poor long-context understanding ability with VTC-compressed information, failing to capture long associations or dependencies in the context.This study provides a deep understanding of VTC and serves as a foundation for designing more efficient and scalable VLMs.
PDF53December 19, 2025