VTC-R1: Сжатие «Видео-Текст» для эффективного логического вывода в длинных контекстах
VTC-R1: Vision-Text Compression for Efficient Long-Context Reasoning
January 29, 2026
Авторы: Yibo Wang, Yongcheng Jing, Shunyu Liu, Hao Guan, Rong-cheng Tu, Chengyu Wang, Jun Huang, Dacheng Tao
cs.AI
Аннотация
Длинноконтекстное рассуждение значительно расширило возможности больших языковых моделей (LLM) для решения сложных задач, однако оно создает серьезные проблемы с эффективностью из-за вычислительной сложности. Существующие эффективные подходы часто полагаются на сложное дополнительное обучение или внешние модели для сжатия, что ограничивает масштабируемость и приводит к потере важной детализированной информации. В данной статье мы предлагаем VTC-R1 — новую эффективную парадигму рассуждений, которая интегрирует сжатие визуально-текстовой информации в процесс рассуждения. Вместо обработки длинных текстовых трассировок VTC-R1 преобразует промежуточные сегменты рассуждений в компактные изображения, которые итеративно передаются обратно в визуально-языковые модели в качестве «оптической памяти». Мы создали обучающий набор данных на основе OpenR1-Math-220K, достигнув 3.4-кратного сжатия токенов, и дообучили репрезентативные VLM-модели — Glyph и Qwen3-VL. Масштабные эксперименты на таких бенчмарках, как MATH500, AIME25, AMC23 и GPQA-D, демонстрируют, что VTC-R1 стабильно превосходит стандартное длинноконтекстное рассуждение. Кроме того, наш подход значительно повышает эффективность вывода, достигая 2.7-кратного ускорения сквозной задержки, что подчеркивает его потенциал в качестве масштабируемого решения для задач, требующих интенсивных рассуждений. Наш код доступен по адресу https://github.com/w-yibo/VTC-R1.
English
Long-context reasoning has significantly empowered large language models (LLMs) to tackle complex tasks, yet it introduces severe efficiency bottlenecks due to the computational complexity. Existing efficient approaches often rely on complex additional training or external models for compression, which limits scalability and discards critical fine-grained information. In this paper, we propose VTC-R1, a new efficient reasoning paradigm that integrates vision-text compression into the reasoning process. Instead of processing lengthy textual traces, VTC-R1 renders intermediate reasoning segments into compact images, which are iteratively fed back into vision-language models as "optical memory." We construct a training dataset based on OpenR1-Math-220K achieving 3.4x token compression and fine-tune representative VLMs-Glyph and Qwen3-VL. Extensive experiments on benchmarks such as MATH500, AIME25, AMC23 and GPQA-D demonstrate that VTC-R1 consistently outperforms standard long-context reasoning. Furthermore, our approach significantly improves inference efficiency, achieving 2.7x speedup in end-to-end latency, highlighting its potential as a scalable solution for reasoning-intensive applications. Our code is available at https://github.com/w-yibo/VTC-R1.