InfiniteVL: Sinergizando Atenção Linear e Esparsa para Modelos de Visão e Linguagem Altamente Eficientes com Entrada Ilimitada

Resumo

A atenção por janela e a atenção linear representam duas estratégias principais para mitigar a complexidade quadrática e o crescimento contínuo da cache KV (chave-valor) em Modelos de Linguagem Visual (VLMs). No entanto, observamos que os VLMs baseados em janela sofrem degradação de desempenho quando o comprimento da sequência excede o tamanho da janela, enquanto a atenção linear tem desempenho inferior em tarefas intensivas em informação, como OCR e compreensão de documentos. Para superar essas limitações, propomos o InfiniteVL, uma arquitetura VLM de complexidade linear que sinergiza a atenção por janela deslizante (SWA) com o Gated DeltaNet. Para alcançar um desempenho multimodal competitivo sob recursos limitados, projetamos uma estratégia de treinamento em três estágios, compreendendo pré-treinamento por destilação, ajuste instrucional e SFT de sequência longa. Notavelmente, usando menos de 2% dos dados de treinamento exigidos pelos principais VLMs, o InfiniteVL não apenas supera substancialmente os VLMs anteriores de complexidade linear, mas também iguala o desempenho dos principais VLMs baseados em Transformer, demonstrando ao mesmo tempo uma retenção eficaz de memória de longo prazo. Em comparação com VLMs baseados em Transformer de tamanho similar acelerados pelo FlashAttention-2, o InfiniteVL alcança uma aceleração de inferência superior a 3,6x, mantendo latência e consumo de memória constantes. Em cenários de compreensão de vídeo em streaming, ele mantém uma velocidade de preenchimento prévio em tempo real estável de 24 FPS, preservando a cache de memória de longo prazo. O código e os modelos estão disponíveis em https://github.com/hustvl/InfiniteVL.

English

Window attention and linear attention represent two principal strategies for mitigating the quadratic complexity and ever-growing KV cache in Vision-Language Models (VLMs). However, we observe that window-based VLMs suffer performance degradation when sequence length exceeds the window size, while linear attention underperforms on information-intensive tasks such as OCR and document understanding. To overcome these limitations, we propose InfiniteVL, a linear-complexity VLM architecture that synergizes sliding window attention (SWA) with Gated DeltaNet. For achieving competitive multimodal performance under constrained resources, we design a three-stage training strategy comprising distillation pretraining, instruction tuning, and long-sequence SFT. Remarkably, using less than 2\% of the training data required by leading VLMs, InfiniteVL not only substantially outperforms previous linear-complexity VLMs but also matches the performance of leading Transformer-based VLMs, while demonstrating effective long-term memory retention. Compared to similar-sized Transformer-based VLMs accelerated by FlashAttention-2, InfiniteVL achieves over 3.6\times inference speedup while maintaining constant latency and memory footprint. In streaming video understanding scenarios, it sustains a stable 24 FPS real-time prefill speed while preserving long-term memory cache. Code and models are available at https://github.com/hustvl/InfiniteVL.

InfiniteVL: Sinergizando Atenção Linear e Esparsa para Modelos de Visão e Linguagem Altamente Eficientes com Entrada Ilimitada

InfiniteVL: Synergizing Linear and Sparse Attention for Highly-Efficient, Unlimited-Input Vision-Language Models

Resumo

Support