InfiniteVL: Synergismus von linearer und sparser Aufmerksamkeit für hocheffiziente Vision-Language-Modelle mit unbegrenzter Eingabe
InfiniteVL: Synergizing Linear and Sparse Attention for Highly-Efficient, Unlimited-Input Vision-Language Models
December 9, 2025
papers.authors: Hongyuan Tao, Bencheng Liao, Shaoyu Chen, Haoran Yin, Qian Zhang, Wenyu Liu, Xinggang Wang
cs.AI
papers.abstract
Fenster-Attention und linearer Attention stellen zwei Hauptstrategien zur Minderung der quadratischen Komplexität und des stetig wachsenden KV-Cache in Vision-Language-Modellen (VLMs) dar. Wir beobachten jedoch, dass fensterbasierte VLMs Leistungseinbußen erleiden, wenn die Sequenzlänge die Fenstergröße überschreitet, während linearer Attention bei informationsintensiven Aufgaben wie OCR und Dokumentenverständnis unterdurchschnittlich abschneidet. Um diese Einschränkungen zu überwinden, schlagen wir InfiniteVL vor – eine VLM-Architektur mit linearer Komplexität, die gleitende Fenster-Attention (SWA) mit Gated DeltaNet kombiniert. Um wettbewerbsfähige multimodale Leistung unter begrenzten Ressourcen zu erreichen, entwerfen wir eine dreistufige Trainingsstrategie bestehend aus Distillation-Pretraining, Instruction-Tuning und Long-Sequence-SFT. Bemerkenswerterweise übertrifft InfiniteVL mit weniger als 2 % der Trainingsdaten führender VLMs nicht nur frühere VLMs mit linearer Komplexität deutlich, sondern erreicht auch die Leistung moderner Transformer-basierter VLMs – bei gleichzeitig effektivem Langzeitgedächtniserhalt. Im Vergleich zu ähnlich großen, durch FlashAttention-2 beschleunigten Transformer-VLMs erzielt InfiniteVL eine mehr als 3,6-fache Inferenzbeschleunigung bei konstanter Latenz und konstantem Speicherbedarf. In Streaming-Video-Verständnisszenarien hält es eine stabile Echtzeit-Prefill-Rate von 24 FPS bei Bewahrung des Langzeitgedächtnis-Caches. Code und Modelle sind verfügbar unter https://github.com/hustvl/InfiniteVL.
English
Window attention and linear attention represent two principal strategies for mitigating the quadratic complexity and ever-growing KV cache in Vision-Language Models (VLMs). However, we observe that window-based VLMs suffer performance degradation when sequence length exceeds the window size, while linear attention underperforms on information-intensive tasks such as OCR and document understanding. To overcome these limitations, we propose InfiniteVL, a linear-complexity VLM architecture that synergizes sliding window attention (SWA) with Gated DeltaNet. For achieving competitive multimodal performance under constrained resources, we design a three-stage training strategy comprising distillation pretraining, instruction tuning, and long-sequence SFT. Remarkably, using less than 2\% of the training data required by leading VLMs, InfiniteVL not only substantially outperforms previous linear-complexity VLMs but also matches the performance of leading Transformer-based VLMs, while demonstrating effective long-term memory retention. Compared to similar-sized Transformer-based VLMs accelerated by FlashAttention-2, InfiniteVL achieves over 3.6\times inference speedup while maintaining constant latency and memory footprint. In streaming video understanding scenarios, it sustains a stable 24 FPS real-time prefill speed while preserving long-term memory cache. Code and models are available at https://github.com/hustvl/InfiniteVL.