VTC-R1: Compressão Visão-Texto para Raciocínio Eficiente em Contextos Longos

Resumo

O raciocínio de contexto longo tem capacitado significativamente os grandes modelos de linguagem (LLMs) para lidar com tarefas complexas, mas introduz sérios gargalos de eficiência devido à complexidade computacional. As abordagens eficientes existentes frequentemente dependem de treinamento adicional complexo ou de modelos externos para compressão, o que limita a escalabilidade e descarta informações refinadas críticas. Neste artigo, propomos o VTC-R1, um novo paradigma de raciocínio eficiente que integra a compressão visão-texto no processo de raciocínio. Em vez de processar longos traços textuais, o VTC-R1 converte segmentos intermediários de raciocínio em imagens compactas, que são iterativamente reinseridas em modelos de linguagem visual como "memória óptica". Construímos um conjunto de dados de treinamento baseado no OpenR1-Math-220K, alcançando uma compressão de 3,4x em tokens, e ajustamos finamente VLMs representativos - Glyph e Qwen3-VL. Experimentos extensivos em benchmarks como MATH500, AIME25, AMC23 e GPQA-D demonstram que o VTC-R1 supera consistentemente o raciocínio padrão de contexto longo. Além disso, nossa abordagem melhora significativamente a eficiência inferencial, alcançando uma aceleração de 2,7x na latência de ponta a ponta, destacando seu potencial como uma solução escalável para aplicações intensivas em raciocínio. Nosso código está disponível em https://github.com/w-yibo/VTC-R1.

English

Long-context reasoning has significantly empowered large language models (LLMs) to tackle complex tasks, yet it introduces severe efficiency bottlenecks due to the computational complexity. Existing efficient approaches often rely on complex additional training or external models for compression, which limits scalability and discards critical fine-grained information. In this paper, we propose VTC-R1, a new efficient reasoning paradigm that integrates vision-text compression into the reasoning process. Instead of processing lengthy textual traces, VTC-R1 renders intermediate reasoning segments into compact images, which are iteratively fed back into vision-language models as "optical memory." We construct a training dataset based on OpenR1-Math-220K achieving 3.4x token compression and fine-tune representative VLMs-Glyph and Qwen3-VL. Extensive experiments on benchmarks such as MATH500, AIME25, AMC23 and GPQA-D demonstrate that VTC-R1 consistently outperforms standard long-context reasoning. Furthermore, our approach significantly improves inference efficiency, achieving 2.7x speedup in end-to-end latency, highlighting its potential as a scalable solution for reasoning-intensive applications. Our code is available at https://github.com/w-yibo/VTC-R1.

VTC-R1: Compressão Visão-Texto para Raciocínio Eficiente em Contextos Longos

VTC-R1: Vision-Text Compression for Efficient Long-Context Reasoning

Resumo

Support