VTC-R1: Visuell-Textuelle Kompression für effizientes Langkontext-Schlussfolgern
VTC-R1: Vision-Text Compression for Efficient Long-Context Reasoning
January 29, 2026
papers.authors: Yibo Wang, Yongcheng Jing, Shunyu Liu, Hao Guan, Rong-cheng Tu, Chengyu Wang, Jun Huang, Dacheng Tao
cs.AI
papers.abstract
Langkontext-Fähigkeiten haben große Sprachmodelle (LLMs) erheblich gestärkt, um komplexe Aufgaben zu bewältigen, doch sie führen aufgrund der rechnerischen Komplexität zu erheblichen Effizienzengpässen. Bestehende effiziente Ansätze setzen oft auf komplexes Zusatztraining oder externe Modelle zur Komprimierung, was die Skalierbarkeit einschränkt und kritische feingranulare Informationen verwirft. In diesem Artikel stellen wir VTC-R1 vor, ein neues effizientes Reasoning-Paradigma, das Bild-Text-Komprimierung in den Denkprozess integriert. Anstatt lange textuelle Spuren zu verarbeiten, rendert VTC-R1 Zwischenergebnisse in kompakte Bilder, die iterativ als "optischer Speicher" in Vision-Language-Modelle zurückgespeist werden. Wir erstellen einen Trainingsdatensatz basierend auf OpenR1-Math-220K, der eine 3,4-fache Token-Komprimierung erreicht, und feintunen repräsentative VLMs – Glyph und Qwen3-VL. Umfangreiche Experimente auf Benchmarks wie MATH500, AIME25, AMC23 und GPQA-D zeigen, dass VTC-R1 durchgängig besser abschneidet als Standard-Langkontext-Reasoning. Darüber hinaus verbessert unser Ansatz die Inferenzeffizienz erheblich und erreicht eine 2,7-fache Beschleunigung der End-to-End-Latenz, was sein Potenzial als skalierbare Lösung für reasoning-intensive Anwendungen unterstreicht. Unser Code ist verfügbar unter https://github.com/w-yibo/VTC-R1.
English
Long-context reasoning has significantly empowered large language models (LLMs) to tackle complex tasks, yet it introduces severe efficiency bottlenecks due to the computational complexity. Existing efficient approaches often rely on complex additional training or external models for compression, which limits scalability and discards critical fine-grained information. In this paper, we propose VTC-R1, a new efficient reasoning paradigm that integrates vision-text compression into the reasoning process. Instead of processing lengthy textual traces, VTC-R1 renders intermediate reasoning segments into compact images, which are iteratively fed back into vision-language models as "optical memory." We construct a training dataset based on OpenR1-Math-220K achieving 3.4x token compression and fine-tune representative VLMs-Glyph and Qwen3-VL. Extensive experiments on benchmarks such as MATH500, AIME25, AMC23 and GPQA-D demonstrate that VTC-R1 consistently outperforms standard long-context reasoning. Furthermore, our approach significantly improves inference efficiency, achieving 2.7x speedup in end-to-end latency, highlighting its potential as a scalable solution for reasoning-intensive applications. Our code is available at https://github.com/w-yibo/VTC-R1.