Глиф: Масштабирование контекстных окон с помощью визуально-текстового сжатия
Glyph: Scaling Context Windows via Visual-Text Compression
October 20, 2025
Авторы: Jiale Cheng, Yusen Liu, Xinyu Zhang, Yulin Fei, Wenyi Hong, Ruiliang Lyu, Weihan Wang, Zhe Su, Xiaotao Gu, Xiao Liu, Yushi Bai, Jie Tang, Hongning Wang, Minlie Huang
cs.AI
Аннотация
Крупные языковые модели (LLMs) всё чаще полагаются на моделирование длинного контекста для задач, таких как понимание документов, анализ кода и многошаговые рассуждения. Однако масштабирование окон контекста до уровня в миллион токенов приводит к непомерным вычислительным и затратам памяти, что ограничивает практическую применимость LLMs с длинным контекстом. В данной работе мы предлагаем альтернативный подход — масштабирование визуального контекста — для решения этой проблемы. Вместо расширения последовательностей на основе токенов мы предлагаем Glyph, фреймворк, который преобразует длинные тексты в изображения и обрабатывает их с помощью моделей визуального языка (VLMs). Этот подход существенно сжимает текстовые входные данные, сохраняя при этом семантическую информацию, и мы дополнительно разрабатываем генетический поиск, управляемый LLM, для определения оптимальных конфигураций визуального рендеринга, балансирующих точность и сжатие. В ходе обширных экспериментов мы демонстрируем, что наш метод достигает сжатия токенов в 3-4 раза при сохранении точности, сопоставимой с ведущими LLMs, такими как Qwen3-8B, на различных бенчмарках с длинным контекстом. Это сжатие также приводит к ускорению предварительного заполнения и декодирования примерно в 4 раза и ускорению обучения SFT примерно в 2 раза. Более того, при экстремальном сжатии VLM с контекстом 128K может масштабироваться для обработки текстовых задач уровня 1M токенов. Кроме того, визуализированные текстовые данные полезны для реальных многомодальных задач, таких как понимание документов. Наш код и модель доступны по адресу https://github.com/thu-coai/Glyph.
English
Large language models (LLMs) increasingly rely on long-context modeling for
tasks such as document understanding, code analysis, and multi-step reasoning.
However, scaling context windows to the million-token level brings prohibitive
computational and memory costs, limiting the practicality of long-context LLMs.
In this work, we take a different perspective-visual context scaling-to tackle
this challenge. Instead of extending token-based sequences, we propose Glyph, a
framework that renders long texts into images and processes them with
vision-language models (VLMs). This approach substantially compresses textual
input while preserving semantic information, and we further design an
LLM-driven genetic search to identify optimal visual rendering configurations
for balancing accuracy and compression. Through extensive experiments, we
demonstrate that our method achieves 3-4x token compression while maintaining
accuracy comparable to leading LLMs such as Qwen3-8B on various long-context
benchmarks. This compression also leads to around 4x faster prefilling and
decoding, and approximately 2x faster SFT training. Furthermore, under extreme
compression, a 128K-context VLM could scale to handle 1M-token-level text
tasks. In addition, the rendered text data benefits real-world multimodal
tasks, such as document understanding. Our code and model are released at
https://github.com/thu-coai/Glyph.