ChatPaper.aiChatPaper

InfiniteVL: Sinergia tra Attenzione Lineare e Sparsa per Modelli Visione-Linguaggio Altamente Efficienti e a Input Illimitato

InfiniteVL: Synergizing Linear and Sparse Attention for Highly-Efficient, Unlimited-Input Vision-Language Models

December 9, 2025
Autori: Hongyuan Tao, Bencheng Liao, Shaoyu Chen, Haoran Yin, Qian Zhang, Wenyu Liu, Xinggang Wang
cs.AI

Abstract

L'attenzione a finestra e l'attenzione lineare rappresentano due strategie principali per mitigare la complessità quadratica e la crescente cache KV nei Modelli Visione-Linguaggio (VLA). Tuttavia, osserviamo che i VLA basati su finestra subiscono un degrado delle prestazioni quando la lunghezza della sequenza supera la dimensione della finestra, mentre l'attenzione lineare fornisce prestazioni inferiori in compiti ad alta intensità informativa come OCR e comprensione di documenti. Per superare queste limitazioni, proponiamo InfiniteVL, un'architettura VLA a complessità lineare che sinergizza l'attenzione a finestra scorrevole (SWA) con il Gated DeltaNet. Per ottenere prestazioni multimodali competitive con risorse limitate, progettiamo una strategia di addestramento in tre fasi che comprende pre-addestramento per distillazione, instruction tuning e SFT a sequenze lunghe. Notevolmente, utilizzando meno del 2% dei dati di addestramento richiesti dai VLA leader, InfiniteVL non solo supera sostanzialmente i precedenti VLA a complessità lineare, ma eguaglia anche le prestazioni dei migliori VLA basati su Transformer, dimostrando al contempo un'efficace ritenzione della memoria a lungo termine. Rispetto a VLA basati su Transformer di dimensioni simili accelerati con FlashAttention-2, InfiniteVL raggiunge un'accelerazione inferenziale superiore a 3,6× mantenendo latenza e footprint di memoria costanti. In scenari di comprensione di video in streaming, mantiene una velocità di prefill in tempo reale stabile di 24 FPS preservando la cache di memoria a lungo termine. Codice e modelli sono disponibili su https://github.com/hustvl/InfiniteVL.
English
Window attention and linear attention represent two principal strategies for mitigating the quadratic complexity and ever-growing KV cache in Vision-Language Models (VLMs). However, we observe that window-based VLMs suffer performance degradation when sequence length exceeds the window size, while linear attention underperforms on information-intensive tasks such as OCR and document understanding. To overcome these limitations, we propose InfiniteVL, a linear-complexity VLM architecture that synergizes sliding window attention (SWA) with Gated DeltaNet. For achieving competitive multimodal performance under constrained resources, we design a three-stage training strategy comprising distillation pretraining, instruction tuning, and long-sequence SFT. Remarkably, using less than 2\% of the training data required by leading VLMs, InfiniteVL not only substantially outperforms previous linear-complexity VLMs but also matches the performance of leading Transformer-based VLMs, while demonstrating effective long-term memory retention. Compared to similar-sized Transformer-based VLMs accelerated by FlashAttention-2, InfiniteVL achieves over 3.6\times inference speedup while maintaining constant latency and memory footprint. In streaming video understanding scenarios, it sustains a stable 24 FPS real-time prefill speed while preserving long-term memory cache. Code and models are available at https://github.com/hustvl/InfiniteVL.
PDF132December 13, 2025