InfiniteVL: Sinergización de la Atención Lineal y Dispersa para Modelos de Visión y Lenguaje de Alta Eficiencia y Entrada Ilimitada
InfiniteVL: Synergizing Linear and Sparse Attention for Highly-Efficient, Unlimited-Input Vision-Language Models
December 9, 2025
Autores: Hongyuan Tao, Bencheng Liao, Shaoyu Chen, Haoran Yin, Qian Zhang, Wenyu Liu, Xinggang Wang
cs.AI
Resumen
La atención por ventanas y la atención lineal representan dos estrategias principales para mitigar la complejidad cuadrática y la creciente caché KV en los Modelos de Visión y Lenguaje (VLMs). Sin embargo, observamos que los VLMs basados en ventanas sufren degradación de rendimiento cuando la longitud de la secuencia excede el tamaño de la ventana, mientras que la atención lineal tiene un rendimiento inferior en tareas intensivas en información, como OCR y comprensión de documentos. Para superar estas limitaciones, proponemos InfiniteVL, una arquitectura VLM de complejidad lineal que sinergiza la atención por ventana deslizante (SWA) con Gated DeltaNet. Para lograr un rendimiento multimodal competitivo con recursos limitados, diseñamos una estrategia de entrenamiento en tres etapas que comprende preentrenamiento por destilación, ajuste por instrucciones y SFT de secuencias largas. Notablemente, utilizando menos del 2% de los datos de entrenamiento requeridos por los principales VLMs, InfiniteVL no solo supera sustancialmente a los VLMs anteriores de complejidad lineal, sino que iguala el rendimiento de los principales VLMs basados en Transformer, al tiempo que demuestra una retención efectiva de memoria a largo plazo. En comparación con VLMs basados en Transformer de tamaño similar acelerados por FlashAttention-2, InfiniteVL logra una aceleración de inferencia superior a 3.6× mientras mantiene una latencia y huella de memoria constantes. En escenarios de comprensión de video en streaming, mantiene una velocidad de prellenado estable en tiempo real de 24 FPS mientras preserva la caché de memoria a largo plazo. El código y los modelos están disponibles en https://github.com/hustvl/InfiniteVL.
English
Window attention and linear attention represent two principal strategies for mitigating the quadratic complexity and ever-growing KV cache in Vision-Language Models (VLMs). However, we observe that window-based VLMs suffer performance degradation when sequence length exceeds the window size, while linear attention underperforms on information-intensive tasks such as OCR and document understanding. To overcome these limitations, we propose InfiniteVL, a linear-complexity VLM architecture that synergizes sliding window attention (SWA) with Gated DeltaNet. For achieving competitive multimodal performance under constrained resources, we design a three-stage training strategy comprising distillation pretraining, instruction tuning, and long-sequence SFT. Remarkably, using less than 2\% of the training data required by leading VLMs, InfiniteVL not only substantially outperforms previous linear-complexity VLMs but also matches the performance of leading Transformer-based VLMs, while demonstrating effective long-term memory retention. Compared to similar-sized Transformer-based VLMs accelerated by FlashAttention-2, InfiniteVL achieves over 3.6\times inference speedup while maintaining constant latency and memory footprint. In streaming video understanding scenarios, it sustains a stable 24 FPS real-time prefill speed while preserving long-term memory cache. Code and models are available at https://github.com/hustvl/InfiniteVL.