ChatPaper.aiChatPaper

InfiniteVL: 무제한 입력 비전-언어 모델을 위한 선형 어텐션과 희소 어텐션의 시너지 효과 극대화

InfiniteVL: Synergizing Linear and Sparse Attention for Highly-Efficient, Unlimited-Input Vision-Language Models

December 9, 2025
저자: Hongyuan Tao, Bencheng Liao, Shaoyu Chen, Haoran Yin, Qian Zhang, Wenyu Liu, Xinggang Wang
cs.AI

초록

윈도우 어텐션과 선형 어텐션은 Vision-Language Model(VLM)의 이차 복잡도와 지속적으로 증가하는 KV 캐시 문제를 완화하기 위한 두 가지 주요 전략입니다. 그러나 우리는 윈도우 기반 VLM이 시퀀스 길이가 윈도우 크기를 초과할 때 성능 저하를 겪는 반면, 선형 어텐션은 OCR 및 문서 이해와 같은 정보 집약적 작업에서 성능이 떨어진다는 점을 관찰했습니다. 이러한 한계를 극복하기 위해 우리는 슬라이딩 윈도우 어텐션(SWA)과 Gated DeltaNet을 결합한 선형 복잡도 VLM 아키텍처인 InfiniteVL을 제안합니다. 제한된 자원 조건에서 경쟁력 있는 멀티모달 성능을 달성하기 위해 지식 증류 사전 학습, 지시어 튜닝, 장시퀀스 SFT로 구성된 3단계 학습 전략을 설계했습니다. 주류 VLM이 필요로 하는 학습 데이터의 2% 미만을 사용함에도 불구하고, InfiniteVL은 기존 선형 복잡도 VLM을 크게 능가할 뿐만 아니라 선두 Transformer 기반 VLM의 성능에도 필적하면서 효과적인 장기 기억 보유 능력을 입증했습니다. FlashAttention-2로 가속화된 동일 규모 Transformer 기반 VLM과 비교 시, InfiniteVL은 일정한 지연 시간과 메모리 사용량을 유지하면서 3.6배 이상의 추론 속도 향상을 달성했습니다. 스트리밍 비디오 이해 시나리오에서는 장기 기억 캐시를 보존하면서도 안정적인 24 FPS 실시간 프리필 속도를 유지합니다. 코드와 모델은 https://github.com/hustvl/InfiniteVL에서 확인할 수 있습니다.
English
Window attention and linear attention represent two principal strategies for mitigating the quadratic complexity and ever-growing KV cache in Vision-Language Models (VLMs). However, we observe that window-based VLMs suffer performance degradation when sequence length exceeds the window size, while linear attention underperforms on information-intensive tasks such as OCR and document understanding. To overcome these limitations, we propose InfiniteVL, a linear-complexity VLM architecture that synergizes sliding window attention (SWA) with Gated DeltaNet. For achieving competitive multimodal performance under constrained resources, we design a three-stage training strategy comprising distillation pretraining, instruction tuning, and long-sequence SFT. Remarkably, using less than 2\% of the training data required by leading VLMs, InfiniteVL not only substantially outperforms previous linear-complexity VLMs but also matches the performance of leading Transformer-based VLMs, while demonstrating effective long-term memory retention. Compared to similar-sized Transformer-based VLMs accelerated by FlashAttention-2, InfiniteVL achieves over 3.6\times inference speedup while maintaining constant latency and memory footprint. In streaming video understanding scenarios, it sustains a stable 24 FPS real-time prefill speed while preserving long-term memory cache. Code and models are available at https://github.com/hustvl/InfiniteVL.
PDF132December 13, 2025