ChatPaper.aiChatPaper

InfiniteVL: Синергия линейного и разреженного внимания для высокоэффективных Vision-Language моделей с неограниченным входом

InfiniteVL: Synergizing Linear and Sparse Attention for Highly-Efficient, Unlimited-Input Vision-Language Models

December 9, 2025
Авторы: Hongyuan Tao, Bencheng Liao, Shaoyu Chen, Haoran Yin, Qian Zhang, Wenyu Liu, Xinggang Wang
cs.AI

Аннотация

Оконное внимание и линейное внимание представляют собой две основные стратегии для снижения квадратичной сложности и постоянно растущего кэша ключей-значений (KV) в визуально-языковых моделях (VLM). Однако мы наблюдаем, что оконные VLM демонстрируют снижение производительности, когда длина последовательности превышает размер окна, в то время как линейное внимание показывает худшие результаты в задачах, требующих интенсивной обработки информации, таких как OCR и понимание документов. Чтобы преодолеть эти ограничения, мы предлагаем InfiniteVL — VLM-архитектуру с линейной сложностью, которая сочетает скользящее оконное внимание (SWA) с Gated DeltaNet. Для достижения конкурентоспособной мультимодальной производительности при ограниченных ресурсах мы разработали трехэтапную стратегию обучения, включающую предварительное обучение дистилляцией, инструктивное тонкое настройку и SFT на длинных последовательностях. Примечательно, что используя менее 2% данных, необходимых для обучения ведущих VLM, InfiniteVL не только значительно превосходит предыдущие VLM с линейной сложностью, но и соответствует производительности ведущих Transformer- based VLM, демонстрируя при этом эффективное сохранение долговременной памяти. По сравнению с аналогичными по размеру Transformer-based VLM, ускоренными с помощью FlashAttention-2, InfiniteVL обеспечивает более чем 3.6-кратное ускорение вывода при поддержании постоянной задержки и объема потребляемой памяти. В сценариях потокового понимания видео модель поддерживает стабильную скорость предзаполнения в реальном времени 24 кадра/с, сохраняя долговременный кэш памяти. Код и модели доступны по адресу https://github.com/hustvl/InfiniteVL.
English
Window attention and linear attention represent two principal strategies for mitigating the quadratic complexity and ever-growing KV cache in Vision-Language Models (VLMs). However, we observe that window-based VLMs suffer performance degradation when sequence length exceeds the window size, while linear attention underperforms on information-intensive tasks such as OCR and document understanding. To overcome these limitations, we propose InfiniteVL, a linear-complexity VLM architecture that synergizes sliding window attention (SWA) with Gated DeltaNet. For achieving competitive multimodal performance under constrained resources, we design a three-stage training strategy comprising distillation pretraining, instruction tuning, and long-sequence SFT. Remarkably, using less than 2\% of the training data required by leading VLMs, InfiniteVL not only substantially outperforms previous linear-complexity VLMs but also matches the performance of leading Transformer-based VLMs, while demonstrating effective long-term memory retention. Compared to similar-sized Transformer-based VLMs accelerated by FlashAttention-2, InfiniteVL achieves over 3.6\times inference speedup while maintaining constant latency and memory footprint. In streaming video understanding scenarios, it sustains a stable 24 FPS real-time prefill speed while preserving long-term memory cache. Code and models are available at https://github.com/hustvl/InfiniteVL.
PDF132December 13, 2025