Медленно-быстрая архитектура для видео-мультимодальных больших языковых моделей
Slow-Fast Architecture for Video Multi-Modal Large Language Models
April 2, 2025
Авторы: Min Shi, Shihao Wang, Chieh-Yun Chen, Jitesh Jain, Kai Wang, Junjun Xiong, Guilin Liu, Zhiding Yu, Humphrey Shi
cs.AI
Аннотация
Сбалансированное сочетание временного разрешения и пространственной детализации при ограниченном вычислительном бюджете остается ключевой задачей для видео-ориентированных мультимодальных больших языковых моделей (MLLMs). Существующие методы обычно сжимают видео-представления с использованием заранее заданных правил перед их подачей в языковую модель, что приводит к необратимой потере информации и часто игнорированию входных инструкций. Для решения этой проблемы мы предлагаем новую архитектуру "медленно-быстро", которая естественным образом обходит этот компромисс, позволяя использовать больше входных кадров при сохранении пространственных деталей. Вдохновленные тем, как человек сначала бегло просматривает видео, а затем сосредотачивается на важных частях, наша архитектура "медленно-быстро" использует стратегию двойных токенов: 1) "быстрые" визуальные токены — компактный набор сжатых видео-признаков — подаются в языковую модель вместе с текстовыми эмбеддингами для быстрого обзора; 2) "медленные" визуальные токены — несжатые видео-признаки — обрабатываются текстовыми эмбеддингами через специально разработанные гибридные слои декодера, что позволяет извлекать релевантные визуальные детали с линейной сложностью с учетом инструкций. Мы проводим систематическое исследование для оптимизации как общей архитектуры, так и ключевых компонентов. Эксперименты показывают, что наша модель значительно превосходит базовые подходы, основанные только на самовнимании, увеличивая входную емкость с 16 до 128 кадров при увеличении вычислений всего на 3% и достигая среднего улучшения производительности на 16% на пяти бенчмарках для понимания видео. Наша 7B модель демонстрирует наилучшие результаты среди моделей аналогичного размера. Более того, архитектура "медленно-быстро" является модульной и может быть интегрирована в другие видео-ориентированные MLLMs для повышения эффективности и масштабируемости.
English
Balancing temporal resolution and spatial detail under limited compute budget
remains a key challenge for video-based multi-modal large language models
(MLLMs). Existing methods typically compress video representations using
predefined rules before feeding them into the LLM, resulting in irreversible
information loss and often ignoring input instructions. To address this, we
propose a novel slow-fast architecture that naturally circumvents this
trade-off, enabling the use of more input frames while preserving spatial
details. Inspired by how humans first skim a video before focusing on relevant
parts, our slow-fast design employs a dual-token strategy: 1) "fast" visual
tokens -- a compact set of compressed video features -- are fed into the LLM
alongside text embeddings to provide a quick overview; 2) "slow" visual tokens
-- uncompressed video features -- are cross-attended by text embeddings through
specially designed hybrid decoder layers, enabling instruction-aware extraction
of relevant visual details with linear complexity. We conduct systematic
exploration to optimize both the overall architecture and key components.
Experiments show that our model significantly outperforms self-attention-only
baselines, extending the input capacity from 16 to 128 frames with just a 3%
increase in computation, and achieving a 16% average performance improvement
across five video understanding benchmarks. Our 7B model achieves
state-of-the-art performance among models of similar size. Furthermore, our
slow-fast architecture is a plug-and-play design that can be integrated into
other video MLLMs to improve efficiency and scalability.Summary
AI-Generated Summary