VTC-R1: Compresión Visión-Texto para Razonamiento Eficiente en Contextos Extensos
VTC-R1: Vision-Text Compression for Efficient Long-Context Reasoning
January 29, 2026
Autores: Yibo Wang, Yongcheng Jing, Shunyu Liu, Hao Guan, Rong-cheng Tu, Chengyu Wang, Jun Huang, Dacheng Tao
cs.AI
Resumen
El razonamiento de contexto largo ha potenciado significativamente a los modelos de lenguaje grande (LLM) para abordar tareas complejas, pero introduce graves cuellos de botella en la eficiencia debido a la complejidad computacional. Los enfoques eficientes existentes a menudo dependen de entrenamientos adicionales complejos o de modelos externos para la compresión, lo que limita la escalabilidad y descarta información crítica de grano fino. En este artículo, proponemos VTC-R1, un nuevo paradigma de razonamiento eficiente que integra la compresión visión-texto en el proceso de razonamiento. En lugar de procesar largas trazas textuales, VTC-R1 convierte los segmentos intermedios de razonamiento en imágenes compactas, que se retroalimentan iterativamente en modelos de visión y lenguaje como "memoria óptica". Construimos un conjunto de datos de entrenamiento basado en OpenR1-Math-220K, logrando una compresión de tokens de 3.4x, y ajustamos modelos VLM representativos: Glyph y Qwen3-VL. Experimentos exhaustivos en benchmarks como MATH500, AIME25, AMC23 y GPQA-D demuestran que VTC-R1 supera consistentemente al razonamiento estándar de contexto largo. Además, nuestro enfoque mejora significativamente la eficiencia de la inferencia, logrando una aceleración de 2.7x en la latencia de extremo a extremo, lo que resalta su potencial como una solución escalable para aplicaciones intensivas en razonamiento. Nuestro código está disponible en https://github.com/w-yibo/VTC-R1.
English
Long-context reasoning has significantly empowered large language models (LLMs) to tackle complex tasks, yet it introduces severe efficiency bottlenecks due to the computational complexity. Existing efficient approaches often rely on complex additional training or external models for compression, which limits scalability and discards critical fine-grained information. In this paper, we propose VTC-R1, a new efficient reasoning paradigm that integrates vision-text compression into the reasoning process. Instead of processing lengthy textual traces, VTC-R1 renders intermediate reasoning segments into compact images, which are iteratively fed back into vision-language models as "optical memory." We construct a training dataset based on OpenR1-Math-220K achieving 3.4x token compression and fine-tune representative VLMs-Glyph and Qwen3-VL. Extensive experiments on benchmarks such as MATH500, AIME25, AMC23 and GPQA-D demonstrate that VTC-R1 consistently outperforms standard long-context reasoning. Furthermore, our approach significantly improves inference efficiency, achieving 2.7x speedup in end-to-end latency, highlighting its potential as a scalable solution for reasoning-intensive applications. Our code is available at https://github.com/w-yibo/VTC-R1.