VTC-R1: Compressione Visione-Testo per Ragionamento Efficiente su Contesti Lunghi

Abstract

Il ragionamento a contesto lungo ha potenziato significativamente i grandi modelli linguistici (LLM) nell'affrontare compiti complessi, ma introduce gravi colli di bottiglia a livello di efficienza a causa della complessità computazionale. Gli approcci efficienti esistenti spesso si basano su complesse fasi di addestramento aggiuntivo o su modelli esterni per la compressione, il che ne limita la scalabilità e comporta la perdita di informazioni fini critiche. In questo articolo, proponiamo VTC-R1, un nuovo paradigma di ragionamento efficiente che integra la compressione visivo-testuale nel processo di ragionamento. Invece di elaborare lunghe tracce testuali, VTC-R1 converte i segmenti di ragionamento intermedi in immagini compatte, che vengono reinviate iterativamente a modelli visione-linguaggio come "memoria ottica". Abbiamo costruito un dataset di addestramento basato su OpenR1-Math-220K, ottenendo una compressione dei token di 3.4x, e abbiamo effettuato il fine-tuning di modelli VLMs rappresentativi come Glyph e Qwen3-VL. Esperimenti estesi su benchmark come MATH500, AIME25, AMC23 e GPQA-D dimostrano che VTC-R1 supera costantemente il ragionamento a contesto lungo standard. Inoltre, il nostro approccio migliora significativamente l'efficienza inferenziale, raggiungendo un'accelerazione di 2.7x nella latenza end-to-end, evidenziando il suo potenziale come soluzione scalabile per applicazioni ad alta intensità di ragionamento. Il nostro codice è disponibile all'indirizzo https://github.com/w-yibo/VTC-R1.

English

Long-context reasoning has significantly empowered large language models (LLMs) to tackle complex tasks, yet it introduces severe efficiency bottlenecks due to the computational complexity. Existing efficient approaches often rely on complex additional training or external models for compression, which limits scalability and discards critical fine-grained information. In this paper, we propose VTC-R1, a new efficient reasoning paradigm that integrates vision-text compression into the reasoning process. Instead of processing lengthy textual traces, VTC-R1 renders intermediate reasoning segments into compact images, which are iteratively fed back into vision-language models as "optical memory." We construct a training dataset based on OpenR1-Math-220K achieving 3.4x token compression and fine-tune representative VLMs-Glyph and Qwen3-VL. Extensive experiments on benchmarks such as MATH500, AIME25, AMC23 and GPQA-D demonstrate that VTC-R1 consistently outperforms standard long-context reasoning. Furthermore, our approach significantly improves inference efficiency, achieving 2.7x speedup in end-to-end latency, highlighting its potential as a scalable solution for reasoning-intensive applications. Our code is available at https://github.com/w-yibo/VTC-R1.

VTC-R1: Compressione Visione-Testo per Ragionamento Efficiente su Contesti Lunghi

VTC-R1: Vision-Text Compression for Efficient Long-Context Reasoning

Abstract

Support