ChatPaper.aiChatPaper

InfiniteVL: Synergie tussen Lineaire en Sparse Attention voor Zeer Efficiënte Vision-Language Modellen met Onbeperkte Invoer

InfiniteVL: Synergizing Linear and Sparse Attention for Highly-Efficient, Unlimited-Input Vision-Language Models

December 9, 2025
Auteurs: Hongyuan Tao, Bencheng Liao, Shaoyu Chen, Haoran Yin, Qian Zhang, Wenyu Liu, Xinggang Wang
cs.AI

Samenvatting

Vensterattention en lineaire attention vertegenwoordigen twee hoofdstrategieën om de kwadratische complexiteit en de steeds groter wordende KV-cache in Vision-Language Models (VLM's) te verminderen. Wij observeren echter dat op vensters gebaseerde VLM's prestatieverlies lijden wanneer de sequentielengte de venstergrootte overschrijdt, terwijl lineaire attention onderpresteert bij informatie-intensieve taken zoals OCR en documentbegrip. Om deze beperkingen te overwinnen, stellen wij InfiniteVL voor, een VLM-architectuur met lineaire complexiteit die sliding window attention (SWA) combineert met Gated DeltaNet. Om competitieve multimodale prestaties te bereiken onder beperkte middelen, ontwerpen wij een driestappen-trainingsstrategie bestaande uit distillatie-pre-training, instruction tuning en long-sequence SFT. Opmerkelijk is dat InfiniteVL, met minder dan 2% van de trainingsdata die toonaangevende VLM's nodig hebben, niet alleen aanzienlijk beter presteert dan eerdere VLM's met lineaire complexiteit, maar ook de prestaties evenaart van toonaangevende Transformer-gebaseerde VLM's, terwijl het effectief langetermijngeheugen behoudt. Vergeleken met vergelijkbare Transformer-gebaseerde VLM's versneld door FlashAttention-2, behaalt InfiniteVL een meer dan 3,6× snellere inferentiesnelheid bij constante latentie en geheugengebruik. In scenario's voor streaming videobegrip handhaaft het een stabiele real-time prefill-snelheid van 24 FPS terwijl het de langetermijngeheugencache behoudt. Code en modellen zijn beschikbaar op https://github.com/hustvl/InfiniteVL.
English
Window attention and linear attention represent two principal strategies for mitigating the quadratic complexity and ever-growing KV cache in Vision-Language Models (VLMs). However, we observe that window-based VLMs suffer performance degradation when sequence length exceeds the window size, while linear attention underperforms on information-intensive tasks such as OCR and document understanding. To overcome these limitations, we propose InfiniteVL, a linear-complexity VLM architecture that synergizes sliding window attention (SWA) with Gated DeltaNet. For achieving competitive multimodal performance under constrained resources, we design a three-stage training strategy comprising distillation pretraining, instruction tuning, and long-sequence SFT. Remarkably, using less than 2\% of the training data required by leading VLMs, InfiniteVL not only substantially outperforms previous linear-complexity VLMs but also matches the performance of leading Transformer-based VLMs, while demonstrating effective long-term memory retention. Compared to similar-sized Transformer-based VLMs accelerated by FlashAttention-2, InfiniteVL achieves over 3.6\times inference speedup while maintaining constant latency and memory footprint. In streaming video understanding scenarios, it sustains a stable 24 FPS real-time prefill speed while preserving long-term memory cache. Code and models are available at https://github.com/hustvl/InfiniteVL.
PDF132December 13, 2025