InfiniteVL : Synergisation de l'attention linéaire et parcimonieuse pour des modèles vision-langage hautement efficaces à entrée illimitée
InfiniteVL: Synergizing Linear and Sparse Attention for Highly-Efficient, Unlimited-Input Vision-Language Models
December 9, 2025
papers.authors: Hongyuan Tao, Bencheng Liao, Shaoyu Chen, Haoran Yin, Qian Zhang, Wenyu Liu, Xinggang Wang
cs.AI
papers.abstract
L'attention par fenêtre et l'attention linéaire constituent deux stratégies principales pour atténuer la complexité quadratique et la croissance constante du cache KV dans les modèles vision-langage (VLM). Cependant, nous observons que les VLM à fenêtres subissent une dégradation des performances lorsque la longueur de séquence dépasse la taille de fenêtre, tandis que l'attention linéaire obtient des résultats inférieurs sur des tâches intensives en information comme la ROC et la compréhension de documents. Pour surmonter ces limitations, nous proposons InfiniteVL, une architecture VLM à complexité linéaire qui combine l'attention par fenêtre glissante (SWA) avec Gated DeltaNet. Pour atteindre des performances multimodales compétitives avec des ressources limitées, nous concevons une stratégie d'entraînement en trois étapes comprenant un pré-entraînement par distillation, un réglage par instruction et un SFT à longues séquences. Fait remarquable, en utilisant moins de 2 % des données d'entraînement requises par les meilleurs VLM, InfiniteVL surpasse non seulement substantiellement les VLM à complexité linéaire précédents, mais égale également les performances des meilleurs VLM basés sur Transformer, tout en démontrant une rétention efficace de la mémoire à long terme. Comparé aux VLM basés sur Transformer de taille similaire accélérés par FlashAttention-2, InfiniteVL atteint une accélération d'inférence supérieure à 3,6× tout en maintenant une latence et une empreinte mémoire constantes. Dans les scénarios de compréhension de vidéo en flux continu, il maintient une vitesse de préremplissage en temps réel stable de 24 IPS tout en préservant le cache de mémoire à long terme. Le code et les modèles sont disponibles à l'adresse https://github.com/hustvl/InfiniteVL.
English
Window attention and linear attention represent two principal strategies for mitigating the quadratic complexity and ever-growing KV cache in Vision-Language Models (VLMs). However, we observe that window-based VLMs suffer performance degradation when sequence length exceeds the window size, while linear attention underperforms on information-intensive tasks such as OCR and document understanding. To overcome these limitations, we propose InfiniteVL, a linear-complexity VLM architecture that synergizes sliding window attention (SWA) with Gated DeltaNet. For achieving competitive multimodal performance under constrained resources, we design a three-stage training strategy comprising distillation pretraining, instruction tuning, and long-sequence SFT. Remarkably, using less than 2\% of the training data required by leading VLMs, InfiniteVL not only substantially outperforms previous linear-complexity VLMs but also matches the performance of leading Transformer-based VLMs, while demonstrating effective long-term memory retention. Compared to similar-sized Transformer-based VLMs accelerated by FlashAttention-2, InfiniteVL achieves over 3.6\times inference speedup while maintaining constant latency and memory footprint. In streaming video understanding scenarios, it sustains a stable 24 FPS real-time prefill speed while preserving long-term memory cache. Code and models are available at https://github.com/hustvl/InfiniteVL.