ビデオマルチモーダル大規模言語モデルのためのスロー・ファストアーキテクチャ
Slow-Fast Architecture for Video Multi-Modal Large Language Models
April 2, 2025
著者: Min Shi, Shihao Wang, Chieh-Yun Chen, Jitesh Jain, Kai Wang, Junjun Xiong, Guilin Liu, Zhiding Yu, Humphrey Shi
cs.AI
要旨
限られた計算予算のもとで時間分解能と空間的詳細さのバランスを取ることは、ビデオベースのマルチモーダル大規模言語モデル(MLLM)における重要な課題である。既存の手法では、通常、ビデオ表現を事前に定義されたルールに従って圧縮し、それをLLMに入力するため、不可逆的な情報の損失が生じ、入力指示が無視されることが多い。この問題に対処するため、我々は、このトレードオフを自然に回避し、より多くの入力フレームを使用しながら空間的詳細を保持する新しいスロー・ファストアーキテクチャを提案する。人間がビデオを最初にざっと見てから関連する部分に焦点を当てる方法に着想を得て、我々のスロー・ファスト設計は二重トークン戦略を採用している:1)「ファスト」ビジュアルトークン——圧縮されたビデオ特徴のコンパクトなセット——は、テキスト埋め込みとともにLLMに入力され、迅速な概要を提供する;2)「スロー」ビジュアルトークン——非圧縮のビデオ特徴——は、特別に設計されたハイブリッドデコーダ層を介してテキスト埋め込みによってクロスアテンションされ、線形計算量で指示を意識した関連する視覚的詳細の抽出を可能にする。我々は、全体のアーキテクチャと主要コンポーネントの最適化のために体系的な探索を行った。実験結果は、我々のモデルがセルフアテンションのみのベースラインを大幅に上回り、計算量をわずか3%増加させるだけで入力容量を16フレームから128フレームに拡張し、5つのビデオ理解ベンチマークで平均16%の性能向上を達成することを示している。我々の7Bモデルは、同規模のモデルの中で最先端の性能を達成した。さらに、我々のスロー・ファストアーキテクチャはプラグアンドプレイ設計であり、他のビデオMLLMに統合して効率とスケーラビリティを向上させることができる。
English
Balancing temporal resolution and spatial detail under limited compute budget
remains a key challenge for video-based multi-modal large language models
(MLLMs). Existing methods typically compress video representations using
predefined rules before feeding them into the LLM, resulting in irreversible
information loss and often ignoring input instructions. To address this, we
propose a novel slow-fast architecture that naturally circumvents this
trade-off, enabling the use of more input frames while preserving spatial
details. Inspired by how humans first skim a video before focusing on relevant
parts, our slow-fast design employs a dual-token strategy: 1) "fast" visual
tokens -- a compact set of compressed video features -- are fed into the LLM
alongside text embeddings to provide a quick overview; 2) "slow" visual tokens
-- uncompressed video features -- are cross-attended by text embeddings through
specially designed hybrid decoder layers, enabling instruction-aware extraction
of relevant visual details with linear complexity. We conduct systematic
exploration to optimize both the overall architecture and key components.
Experiments show that our model significantly outperforms self-attention-only
baselines, extending the input capacity from 16 to 128 frames with just a 3%
increase in computation, and achieving a 16% average performance improvement
across five video understanding benchmarks. Our 7B model achieves
state-of-the-art performance among models of similar size. Furthermore, our
slow-fast architecture is a plug-and-play design that can be integrated into
other video MLLMs to improve efficiency and scalability.Summary
AI-Generated Summary