SlowFast-LLaVA: ビデオ大規模言語モデルのための強力なトレーニング不要なベースラインSlowFast-LLaVA: A Strong Training-Free Baseline for Video Large Language
Models
我々は、SlowFast-LLaVA(略称SF-LLaVA)を提案する。これは、一般的に使用される大規模言語モデル(LLM)のトークン予算を超えることなく、詳細な空間的意味論と長期的な時間的文脈を同時に捉えることができる、学習不要のビデオ大規模言語モデル(Video LLM)である。これは、ビデオLLMの入力として二つのストリーム(SlowFast設計)を使用し、サンプリングされたビデオフレームから効果的に特徴を集約することで実現される。具体的には、Slowパスウェイは低フレームレートで特徴を抽出し、可能な限り多くの空間的詳細を保持する(例:24x24トークン)。一方、Fastパスウェイは高フレームレートで動作するが、より大きな空間プーリングストライド(例:6倍ダウンサンプリング)を使用して、動きの手がかりに焦点を当てる。その結果、この設計により、ビデオに沿った詳細を理解するのに有益な空間的および時間的特徴を十分に捉えることができる。実験結果は、SF-LLaVAが、幅広いビデオタスクにおいて、既存の学習不要手法を凌駕することを示している。いくつかのベンチマークでは、ビデオデータセットでファインチューニングされた最先端のビデオLLMと同等またはそれ以上の性能を達成している。