SlowFast-LLaVA: Uma Baseline Robusta sem Treinamento para Modelos de Linguagem Grandes de Vídeo
SlowFast-LLaVA: A Strong Training-Free Baseline for Video Large Language Models
July 22, 2024
Autores: Mingze Xu, Mingfei Gao, Zhe Gan, Hong-You Chen, Zhengfeng Lai, Haiming Gang, Kai Kang, Afshin Dehghan
cs.AI
Resumo
Propomos o SlowFast-LLaVA (ou SF-LLaVA, para abreviar), um modelo de linguagem grande para vídeos (LLM) sem treinamento que pode capturar conjuntamente a semântica espacial detalhada e o contexto temporal de longo alcance sem exceder o orçamento de tokens dos LLMs comumente utilizados. Isso é realizado usando um design SlowFast de dois fluxos de entrada para LLMs de Vídeo para agregar recursos de quadros de vídeo amostrados de forma eficaz. Especificamente, o caminho Lento extrai recursos a uma baixa taxa de quadros mantendo o máximo de detalhes espaciais possível (por exemplo, com 24x24 tokens), e o caminho Rápido opera a uma alta taxa de quadros, mas utiliza um maior passo de pooling espacial (por exemplo, subamostragem 6x) para focar nas pistas de movimento. Como resultado, esse design nos permite capturar adequadamente recursos espaciais e temporais benéficos para entender detalhes ao longo do vídeo. Resultados experimentais mostram que o SF-LLaVA supera os métodos existentes sem treinamento em uma ampla gama de tarefas de vídeo. Em alguns benchmarks, ele alcança desempenho comparável ou até melhor em comparação com LLMs de Vídeo de última geração que são ajustados em conjuntos de dados de vídeo.
English
We propose SlowFast-LLaVA (or SF-LLaVA for short), a training-free video
large language model (LLM) that can jointly capture the detailed spatial
semantics and long-range temporal context without exceeding the token budget of
commonly used LLMs. This is realized by using a two-stream SlowFast design of
inputs for Video LLMs to aggregate features from sampled video frames in an
effective way. Specifically, the Slow pathway extracts features at a low frame
rate while keeping as many spatial details as possible (e.g., with 24x24
tokens), and the Fast pathway operates on a high frame rate but uses a larger
spatial pooling stride (e.g., downsampling 6x) to focus on the motion cues. As
a result, this design allows us to adequately capture both spatial and temporal
features that are beneficial for understanding details along the video.
Experimental results show that SF-LLaVA outperforms existing training-free
methods on a wide range of video tasks. On some benchmarks, it achieves
comparable or even better performance compared to state-of-the-art Video LLMs
that are fine-tuned on video datasets.