ChatPaper.aiChatPaper

비디오 멀티모달 대형 언어 모델을 위한 슬로우-패스트 아키텍처

Slow-Fast Architecture for Video Multi-Modal Large Language Models

April 2, 2025
저자: Min Shi, Shihao Wang, Chieh-Yun Chen, Jitesh Jain, Kai Wang, Junjun Xiong, Guilin Liu, Zhiding Yu, Humphrey Shi
cs.AI

초록

제한된 컴퓨팅 예산 하에서 시간적 해상도와 공간적 세부 사항 간의 균형을 맞추는 것은 비디오 기반 다중 모달 대형 언어 모델(MLLMs)의 주요 과제로 남아 있습니다. 기존 방법들은 일반적으로 LLM에 입력하기 전에 미리 정의된 규칙을 사용하여 비디오 표현을 압축함으로써 되돌릴 수 없는 정보 손실을 초래하고 종종 입력 지시를 무시하는 문제가 있었습니다. 이를 해결하기 위해, 우리는 이러한 절충을 자연스럽게 피할 수 있는 새로운 슬로우-패스트(slow-fast) 아키텍처를 제안합니다. 이는 더 많은 입력 프레임을 사용하면서도 공간적 세부 사항을 보존할 수 있게 합니다. 인간이 비디오를 먼저 훑어본 후 관련 부분에 집중하는 방식에서 영감을 받아, 우리의 슬로우-패스트 설계는 이중 토큰 전략을 사용합니다: 1) "패스트" 시각적 토큰 -- 압축된 비디오 특징의 간결한 집합 -- 은 텍스트 임베딩과 함께 LLM에 입력되어 빠른 개요를 제공합니다; 2) "슬로우" 시각적 토큰 -- 압축되지 않은 비디오 특징 -- 은 특별히 설계된 하이브리드 디코더 레이어를 통해 텍스트 임베딩에 의해 교차 주의(cross-attended)되며, 선형 복잡도로 관련 시각적 세부 사항을 지시에 맞게 추출할 수 있게 합니다. 우리는 전체 아키텍처와 핵심 구성 요소를 최적화하기 위해 체계적인 탐색을 수행했습니다. 실험 결과, 우리의 모델은 셀프 어텐션만 사용한 베이스라인을 크게 능가하며, 입력 용량을 16프레임에서 128프레임으로 확장하면서도 단 3%의 계산 증가만을 보였고, 다섯 가지 비디오 이해 벤치마크에서 평균 16%의 성능 향상을 달성했습니다. 우리의 7B 모델은 유사한 크기의 모델들 중에서 최첨단 성능을 보여주었습니다. 또한, 우리의 슬로우-패스트 아키텍처는 플러그 앤 플레이(plug-and-play) 설계로, 다른 비디오 MLLMs에 통합되어 효율성과 확장성을 개선할 수 있습니다.
English
Balancing temporal resolution and spatial detail under limited compute budget remains a key challenge for video-based multi-modal large language models (MLLMs). Existing methods typically compress video representations using predefined rules before feeding them into the LLM, resulting in irreversible information loss and often ignoring input instructions. To address this, we propose a novel slow-fast architecture that naturally circumvents this trade-off, enabling the use of more input frames while preserving spatial details. Inspired by how humans first skim a video before focusing on relevant parts, our slow-fast design employs a dual-token strategy: 1) "fast" visual tokens -- a compact set of compressed video features -- are fed into the LLM alongside text embeddings to provide a quick overview; 2) "slow" visual tokens -- uncompressed video features -- are cross-attended by text embeddings through specially designed hybrid decoder layers, enabling instruction-aware extraction of relevant visual details with linear complexity. We conduct systematic exploration to optimize both the overall architecture and key components. Experiments show that our model significantly outperforms self-attention-only baselines, extending the input capacity from 16 to 128 frames with just a 3% increase in computation, and achieving a 16% average performance improvement across five video understanding benchmarks. Our 7B model achieves state-of-the-art performance among models of similar size. Furthermore, our slow-fast architecture is a plug-and-play design that can be integrated into other video MLLMs to improve efficiency and scalability.

Summary

AI-Generated Summary

PDF82April 7, 2025