SlowFast-LLaVA:一個強大的無需訓練的基準線,適用於視頻大型語言模型SlowFast-LLaVA: A Strong Training-Free Baseline for Video Large Language
Models
我們提出了SlowFast-LLaVA(簡稱SF-LLaVA),這是一種無需訓練的視頻大型語言模型(LLM),能夠共同捕捉詳細的空間語義和長程時間上下文,同時不超出常用LLM的標記預算。這是通過使用兩流SlowFast設計的視頻LLM輸入來有效地聚合來自取樣視頻幀的特徵來實現的。具體而言,Slow 路徑以較低的幀率提取特徵,同時保留盡可能多的空間細節(例如,使用24x24標記),而Fast 路徑以較高的幀率運行,但使用較大的空間池化步幅(例如,下採樣6x)來專注於運動線索。因此,這種設計使我們能夠充分捕捉對於理解視頻中的細節有益的空間和時間特徵。實驗結果表明,SF-LLaVA在各種視頻任務上優於現有的無需訓練方法。在某些基準測試中,它實現了與在視頻數據集上微調的最先進視頻LLM相當甚至更好的性能。