SlowFast-LLaVA: Una Solida Baseline Senza Addestramento per Modelli Linguistici di Grande Dimensione su Video
SlowFast-LLaVA: A Strong Training-Free Baseline for Video Large Language Models
July 22, 2024
Autori: Mingze Xu, Mingfei Gao, Zhe Gan, Hong-You Chen, Zhengfeng Lai, Haiming Gang, Kai Kang, Afshin Dehghan
cs.AI
Abstract
Proponiamo SlowFast-LLaVA (o SF-LLaVA in breve), un modello linguistico di grandi dimensioni (LLM) per video che non richiede addestramento e che è in grado di catturare congiuntamente la semantica spaziale dettagliata e il contesto temporale a lungo raggio senza superare il budget di token dei LLM comunemente utilizzati. Questo è realizzato utilizzando un design a due flussi SlowFast degli input per i Video LLM per aggregare in modo efficace le caratteristiche dai fotogrammi campionati del video. Nello specifico, il percorso Slow estrae le caratteristiche a una bassa frequenza di fotogrammi mantenendo il maggior numero possibile di dettagli spaziali (ad esempio, con 24x24 token), mentre il percorso Fast opera a una frequenza di fotogrammi elevata ma utilizza un passo di pooling spaziale più ampio (ad esempio, downsampling 6x) per concentrarsi sugli indizi di movimento. Di conseguenza, questo design ci consente di catturare adeguatamente sia le caratteristiche spaziali che temporali che sono utili per comprendere i dettagli lungo il video. I risultati sperimentali mostrano che SF-LLaVA supera i metodi esistenti che non richiedono addestramento su un'ampia gamma di task video. Su alcuni benchmark, raggiunge prestazioni paragonabili o addirittura migliori rispetto ai Video LLM all'avanguardia che sono stati ottimizzati su dataset video.
English
We propose SlowFast-LLaVA (or SF-LLaVA for short), a training-free video
large language model (LLM) that can jointly capture the detailed spatial
semantics and long-range temporal context without exceeding the token budget of
commonly used LLMs. This is realized by using a two-stream SlowFast design of
inputs for Video LLMs to aggregate features from sampled video frames in an
effective way. Specifically, the Slow pathway extracts features at a low frame
rate while keeping as many spatial details as possible (e.g., with 24x24
tokens), and the Fast pathway operates on a high frame rate but uses a larger
spatial pooling stride (e.g., downsampling 6x) to focus on the motion cues. As
a result, this design allows us to adequately capture both spatial and temporal
features that are beneficial for understanding details along the video.
Experimental results show that SF-LLaVA outperforms existing training-free
methods on a wide range of video tasks. On some benchmarks, it achieves
comparable or even better performance compared to state-of-the-art Video LLMs
that are fine-tuned on video datasets.