ChatPaper.aiChatPaper

SlowFast-LLaVA: 비디오 대형 언어 모델을 위한 강력한 학습 없는 베이스라인

SlowFast-LLaVA: A Strong Training-Free Baseline for Video Large Language Models

July 22, 2024
저자: Mingze Xu, Mingfei Gao, Zhe Gan, Hong-You Chen, Zhengfeng Lai, Haiming Gang, Kai Kang, Afshin Dehghan
cs.AI

초록

우리는 SlowFast-LLaVA(약칭 SF-LLaVA)를 제안합니다. 이는 일반적으로 사용되는 대형 언어 모델(LLM)의 토큰 예산을 초과하지 않으면서도 세밀한 공간 의미론과 장거리 시간적 맥락을 동시에 포착할 수 있는 학습이 필요 없는 비디오 대형 언어 모델(LLM)입니다. 이는 비디오 LLM을 위한 입력의 두 스트림 SlowFast 설계를 통해 샘플링된 비디오 프레임의 특징을 효과적으로 집계함으로써 실현됩니다. 구체적으로, Slow 경로는 낮은 프레임 속도로 특징을 추출하면서도 가능한 한 많은 공간 세부 정보를 유지하고(예: 24x24 토큰), Fast 경로는 높은 프레임 속도로 작동하지만 더 큰 공간 풀링 스트라이드를 사용하여(예: 6x 다운샘플링) 움직임 단서에 집중합니다. 결과적으로, 이 설계는 비디오를 따라 세부 사항을 이해하는 데 유익한 공간 및 시간적 특징을 모두 적절히 포착할 수 있게 합니다. 실험 결과는 SF-LLaVA가 다양한 비디오 작업에서 기존의 학습이 필요 없는 방법들을 능가함을 보여줍니다. 일부 벤치마크에서는 비디오 데이터셋에 미세 조정된 최첨단 비디오 LLM과 비교해 비슷하거나 더 나은 성능을 달성합니다.
English
We propose SlowFast-LLaVA (or SF-LLaVA for short), a training-free video large language model (LLM) that can jointly capture the detailed spatial semantics and long-range temporal context without exceeding the token budget of commonly used LLMs. This is realized by using a two-stream SlowFast design of inputs for Video LLMs to aggregate features from sampled video frames in an effective way. Specifically, the Slow pathway extracts features at a low frame rate while keeping as many spatial details as possible (e.g., with 24x24 tokens), and the Fast pathway operates on a high frame rate but uses a larger spatial pooling stride (e.g., downsampling 6x) to focus on the motion cues. As a result, this design allows us to adequately capture both spatial and temporal features that are beneficial for understanding details along the video. Experimental results show that SF-LLaVA outperforms existing training-free methods on a wide range of video tasks. On some benchmarks, it achieves comparable or even better performance compared to state-of-the-art Video LLMs that are fine-tuned on video datasets.

Summary

AI-Generated Summary

PDF415November 28, 2024