ChatPaper.aiChatPaper

VTCBench: Способны ли модели «визуальный язык» понимать длинный контекст при сжатии визуально-текстовой информации?

VTCBench: Can Vision-Language Models Understand Long Context with Vision-Text Compression?

December 17, 2025
Авторы: Hongbo Zhao, Meng Wang, Fei Zhu, Wenzhuo Liu, Bolin Ni, Fanhu Zeng, Gaofeng Meng, Zhaoxiang Zhang
cs.AI

Аннотация

Вычислительные затраты и затраты памяти, связанные с расширением контекстного окна больших языковых моделей (LLM), серьезно ограничивают их масштабируемость. Примечательным решением является визуально-текстовое сжатие (VTC), примером которого служат такие фреймворки, как DeepSeek-OCR и Glyph, преобразующие длинные тексты в плотные двумерные визуальные представления, достигая тем самым коэффициентов сжатия токенов в 3–20 раз. Однако влияние такой высокой информационной плотности на ключевые способности визуально-языковых моделей (VLM) к работе с длинным контекстом остается недостаточно изученным. Чтобы восполнить этот пробел, мы представляем первый бенчмарк для VTC и систематически оцениваем производительность VLM в трех сценариях понимания длинного контекста: VTC-Retrieval, который оценивает способность модели извлекать и агрегировать информацию; VTC-Reasoning, который требует от моделей выявления скрытых связей для нахождения фактов с минимальным лексическим перекрытием; и VTC-Memory, который измеряет способность к комплексному ответу на вопросы в рамках долгосрочной диалоговой памяти. Кроме того, мы создали VTCBench-Wild для моделирования разнообразных сценариев ввода. Мы всесторонне оценили ведущие модели с открытым исходным кодом и проприетарные модели на наших бенчмарках. Результаты показывают, что, несмотря на способность хорошо декодировать текстовую информацию (например, с помощью OCR), большинство VLM демонстрируют удивительно низкую способность к пониманию длинного контекста при работе со сжатой VTC информацией, не справляясь с выявлением длинных связей или зависимостей в контексте. Данное исследование обеспечивает глубокое понимание VTC и служит основой для проектирования более эффективных и масштабируемых VLM.
English
The computational and memory overheads associated with expanding the context window of LLMs severely limit their scalability. A noteworthy solution is vision-text compression (VTC), exemplified by frameworks like DeepSeek-OCR and Glyph, which convert long texts into dense 2D visual representations, thereby achieving token compression ratios of 3x-20x. However, the impact of this high information density on the core long-context capabilities of vision-language models (VLMs) remains under-investigated. To address this gap, we introduce the first benchmark for VTC and systematically assess the performance of VLMs across three long-context understanding settings: VTC-Retrieval, which evaluates the model's ability to retrieve and aggregate information; VTC-Reasoning, which requires models to infer latent associations to locate facts with minimal lexical overlap; and VTC-Memory, which measures comprehensive question answering within long-term dialogue memory. Furthermore, we establish the VTCBench-Wild to simulate diverse input scenarios.We comprehensively evaluate leading open-source and proprietary models on our benchmarks. The results indicate that, despite being able to decode textual information (e.g., OCR) well, most VLMs exhibit a surprisingly poor long-context understanding ability with VTC-compressed information, failing to capture long associations or dependencies in the context.This study provides a deep understanding of VTC and serves as a foundation for designing more efficient and scalable VLMs.
PDF53December 19, 2025