効率的なビデオ理解のためのLMM:ビデオキューブの強化圧縮によるアプローチ
An LMM for Efficient Video Understanding via Reinforced Compression of Video Cubes
April 21, 2025
著者: Ji Qi, Yuan Yao, Yushi Bai, Bin Xu, Juanzi Li, Zhiyuan Liu, Tat-Seng Chua
cs.AI
要旨
大規模マルチモーダルモデル(LMM)は、ビデオフレームを均一に認識するため、時間的な情報密度が本質的に異なるビデオに対して計算上の非効率性を生み出します。本論文では、Quicksviewerという新しい認識パラダイムを持つLMMを提案します。このモデルは、不均一な密度のビデオをGumbel Softmaxを使用して異なる立方体に分割し、各立方体に対して統一的なリサンプリングを行うことで、効率的なビデオ理解を実現します。このシンプルで直感的なアプローチは、ビデオの時間的密度に基づいてオンラインで動的に圧縮し、時空間的な冗長性を大幅に削減(全体で45倍の圧縮率)しながら、大きな受容野を持つ効率的なトレーニングを可能にします。我々は、言語バックボーンからモデルを3つの段階的に進むステージでトレーニングし、各ステージで平均420秒/1fpsの長いビデオを認識効率のおかげで取り入れます。トレーニング用のビデオテキストサンプルがわずか0.8Mしかないにもかかわらず、固定分割戦略を採用した直接的なベースラインを最大8.72の精度で上回り、その性能の有効性を実証しています。Video-MMEにおいて、Quicksviewerは、ベースラインがフレームごとに必要とするトークンのわずか5%以下を使用して、控えめなシーケンス長でSOTAを達成します。このパラダイムにより、入力フレーム数をスケールアップすると、モデルの能力の明確なべき乗則が明らかになります。また、立方体ネットワークによって生成されたセグメントが、ビデオ内の連続イベントの分析に役立つことが経験的に検証されています。
English
Large Multimodal Models (LMMs) uniformly perceive video frames, creating
computational inefficiency for videos with inherently varying temporal
information density. This paper present Quicksviewer, an LMM with new
perceiving paradigm that partitions a video of nonuniform density into varying
cubes using Gumbel Softmax, followed by a unified resampling for each cube to
achieve efficient video understanding. This simple and intuitive approach
dynamically compress video online based on its temporal density, significantly
reducing spatiotemporal redundancy (overall 45times compression rate), while
enabling efficient training with large receptive field. We train the model from
a language backbone through three progressive stages, each incorporating
lengthy videos on average of 420s/1fps thanks to the perceiving efficiency.
With only 0.8M total video-text samples for training, our model outperforms the
direct baseline employing a fixed partitioning strategy by a maximum of 8.72 in
accuracy, demonstrating the effectiveness in performance. On Video-MME,
Quicksviewer achieves SOTA under modest sequence lengths using just up to 5\%
of tokens per frame required by baselines. With this paradigm, scaling up the
number of input frames reveals a clear power law of the model capabilities. It
is also empirically verified that the segments generated by the cubing network
can help for analyzing continuous events in videos.Summary
AI-Generated Summary