ChatPaper.aiChatPaper

VTC-R1 : Compression Vision-Text pour un Raisonnement Efficace en Contexte Long

VTC-R1: Vision-Text Compression for Efficient Long-Context Reasoning

January 29, 2026
papers.authors: Yibo Wang, Yongcheng Jing, Shunyu Liu, Hao Guan, Rong-cheng Tu, Chengyu Wang, Jun Huang, Dacheng Tao
cs.AI

papers.abstract

Le raisonnement à contexte long a considérablement renforcé la capacité des grands modèles de langage (LLM) à traiter des tâches complexes, mais il introduit de sévères goulots d'étranglement en termes d'efficacité en raison de la complexité computationnelle. Les approches efficaces existantes reposent souvent sur un apprentissage supplémentaire complexe ou sur des modèles externes pour la compression, ce qui limite l'évolutivité et supprime des informations fines critiques. Dans cet article, nous proposons VTC-R1, un nouveau paradigme de raisonnement efficace qui intègre la compression vision-texte dans le processus de raisonnement. Au lieu de traiter de longues traces textuelles, VTC-R1 convertit les segments de raisonnement intermédiaires en images compactes, qui sont réinjectées itérativement dans des modèles vision-langage sous forme de « mémoire optique ». Nous avons construit un jeu de données d'entraînement basé sur OpenR1-Math-220K, atteignant un taux de compression de 3,4x sur les tokens, et avons effectué un apprentissage fini sur des modèles vision-langage représentatifs – Glyph et Qwen3-VL. Des expériences approfondies sur des benchmarks tels que MATH500, AIME25, AMC23 et GPQA-D démontrent que VTC-R1 surpasse constamment le raisonnement standard à contexte long. De plus, notre approche améliore significativement l'efficacité de l'inférence, avec une accélération de 2,7x de la latence de bout en bout, soulignant son potentiel en tant que solution évolutive pour les applications nécessitant un raisonnement intensif. Notre code est disponible à l'adresse https://github.com/w-yibo/VTC-R1.
English
Long-context reasoning has significantly empowered large language models (LLMs) to tackle complex tasks, yet it introduces severe efficiency bottlenecks due to the computational complexity. Existing efficient approaches often rely on complex additional training or external models for compression, which limits scalability and discards critical fine-grained information. In this paper, we propose VTC-R1, a new efficient reasoning paradigm that integrates vision-text compression into the reasoning process. Instead of processing lengthy textual traces, VTC-R1 renders intermediate reasoning segments into compact images, which are iteratively fed back into vision-language models as "optical memory." We construct a training dataset based on OpenR1-Math-220K achieving 3.4x token compression and fine-tune representative VLMs-Glyph and Qwen3-VL. Extensive experiments on benchmarks such as MATH500, AIME25, AMC23 and GPQA-D demonstrate that VTC-R1 consistently outperforms standard long-context reasoning. Furthermore, our approach significantly improves inference efficiency, achieving 2.7x speedup in end-to-end latency, highlighting its potential as a scalable solution for reasoning-intensive applications. Our code is available at https://github.com/w-yibo/VTC-R1.
PDF73January 31, 2026