ChatPaper.aiChatPaper

SlowFast-LLaVA: Een Sterke Trainingsvrije Baseline voor Video Large Language Modellen

SlowFast-LLaVA: A Strong Training-Free Baseline for Video Large Language Models

July 22, 2024
Auteurs: Mingze Xu, Mingfei Gao, Zhe Gan, Hong-You Chen, Zhengfeng Lai, Haiming Gang, Kai Kang, Afshin Dehghan
cs.AI

Samenvatting

We stellen SlowFast-LLaVA (of kortweg SF-LLaVA) voor, een trainingsvrij video groot taalmodel (LLM) dat zowel gedetailleerde ruimtelijke semantiek als langetermijn temporele context gezamenlijk kan vastleggen zonder het tokenbudget van veelgebruikte LLM's te overschrijden. Dit wordt gerealiseerd door een tweestromen SlowFast-ontwerp van inputs voor Video LLM's te gebruiken om op een effectieve manier kenmerken uit bemonsterde videoframes te aggregeren. Specifiek extraheert het Slow-pad kenmerken met een lage framesnelheid terwijl zoveel mogelijk ruimtelijke details behouden blijven (bijvoorbeeld met 24x24 tokens), en opereert het Fast-pad op een hoge framesnelheid maar gebruikt het een grotere ruimtelijke poolingstap (bijvoorbeeld downsampling 6x) om zich te richten op de bewegingssignalen. Als gevolg maakt dit ontwerp het mogelijk om zowel ruimtelijke als temporele kenmerken adequaat vast te leggen die nuttig zijn voor het begrijpen van details in de video. Experimentele resultaten tonen aan dat SF-LLaVA bestaande trainingsvrije methoden overtreft op een breed scala aan videotaken. Op sommige benchmarks behaalt het vergelijkbare of zelfs betere prestaties vergeleken met state-of-the-art Video LLM's die zijn afgestemd op videodatasets.
English
We propose SlowFast-LLaVA (or SF-LLaVA for short), a training-free video large language model (LLM) that can jointly capture the detailed spatial semantics and long-range temporal context without exceeding the token budget of commonly used LLMs. This is realized by using a two-stream SlowFast design of inputs for Video LLMs to aggregate features from sampled video frames in an effective way. Specifically, the Slow pathway extracts features at a low frame rate while keeping as many spatial details as possible (e.g., with 24x24 tokens), and the Fast pathway operates on a high frame rate but uses a larger spatial pooling stride (e.g., downsampling 6x) to focus on the motion cues. As a result, this design allows us to adequately capture both spatial and temporal features that are beneficial for understanding details along the video. Experimental results show that SF-LLaVA outperforms existing training-free methods on a wide range of video tasks. On some benchmarks, it achieves comparable or even better performance compared to state-of-the-art Video LLMs that are fine-tuned on video datasets.
PDF406February 8, 2026