ChatPaper.aiChatPaper

SlowFast-LLaVA: Eine robuste, trainingfreie Basislinie für große Sprachmodelle für Videos

SlowFast-LLaVA: A Strong Training-Free Baseline for Video Large Language Models

July 22, 2024
Autoren: Mingze Xu, Mingfei Gao, Zhe Gan, Hong-You Chen, Zhengfeng Lai, Haiming Gang, Kai Kang, Afshin Dehghan
cs.AI

Zusammenfassung

Wir schlagen SlowFast-LLaVA (kurz SF-LLaVA) vor, ein trainingsfreies Video-Large Language Model (LLM), das detaillierte räumliche Semantik und langfristigen zeitlichen Kontext gemeinsam erfassen kann, ohne das Token-Budget üblicher LLMs zu überschreiten. Dies wird durch die Verwendung eines Zwei-Strom SlowFast-Designs von Eingaben für Video-LLMs erreicht, um Merkmale von ausgewählten Videoframes auf effektive Weise zu aggregieren. Speziell extrahiert der Langsame Pfad Merkmale mit einer niedrigen Bildrate, während so viele räumliche Details wie möglich beibehalten werden (zum Beispiel mit 24x24 Tokens), und der Schnelle Pfad arbeitet mit einer hohen Bildrate, verwendet jedoch einen größeren räumlichen Pooling-Stride (zum Beispiel ein Downsampling von 6x), um sich auf die Bewegungshinweise zu konzentrieren. Dieses Design ermöglicht es uns, sowohl räumliche als auch zeitliche Merkmale angemessen zu erfassen, die für das Verständnis von Details im Video vorteilhaft sind. Experimentelle Ergebnisse zeigen, dass SF-LLaVA bestehende trainingsfreie Methoden auf einer Vielzahl von Videoaufgaben übertrifft. Auf einigen Benchmarks erzielt es vergleichbare oder sogar bessere Leistungen im Vergleich zu State-of-the-Art Video-LLMs, die auf Videodatensätzen feinabgestimmt sind.
English
We propose SlowFast-LLaVA (or SF-LLaVA for short), a training-free video large language model (LLM) that can jointly capture the detailed spatial semantics and long-range temporal context without exceeding the token budget of commonly used LLMs. This is realized by using a two-stream SlowFast design of inputs for Video LLMs to aggregate features from sampled video frames in an effective way. Specifically, the Slow pathway extracts features at a low frame rate while keeping as many spatial details as possible (e.g., with 24x24 tokens), and the Fast pathway operates on a high frame rate but uses a larger spatial pooling stride (e.g., downsampling 6x) to focus on the motion cues. As a result, this design allows us to adequately capture both spatial and temporal features that are beneficial for understanding details along the video. Experimental results show that SF-LLaVA outperforms existing training-free methods on a wide range of video tasks. On some benchmarks, it achieves comparable or even better performance compared to state-of-the-art Video LLMs that are fine-tuned on video datasets.

Summary

AI-Generated Summary

PDF415November 28, 2024