SALOVA: 長尺ビデオ解析におけるターゲット検索とルーティングのためのセグメント増強型長尺ビデオアシスタント
SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis
November 25, 2024
著者: Junho Kim, Hyunjun Kim, Hosu Lee, Yong Man Ro
cs.AI
要旨
大規模多モーダルモデルの進歩にもかかわらず、長時間かつ編集されていないビデオコンテンツにこれらを適用することは、コンテキストの長さや膨大なメモリオーバーヘッドの制約により依然として困難です。これらの制約は、しばしば重要な情報の損失やモデルの応答の関連性の低下につながります。Webプラットフォーム上のビデオデータの指数関数的な成長に伴い、長尺ビデオの理解は汎用知能の進歩にとって重要です。本論文では、SALOVA(Segment-Augmented LOng Video Assistant)を紹介します。これは、長時間ビデオコンテンツの理解を向上させるために設計された新しいビデオ-LLMフレームワークです。これは、ターゲット検索プロセスを通じて長尺ビデオの理解を向上させます。これを実現するために、次の2つの主な課題に取り組んでいます:(i) シーンの連続性を捉え、豊かな記述的コンテキストを維持するために、各々がセグメントレベルで密にキャプションされた87.8Kの長時間ビデオの高品質なコレクションであるSceneWalkデータセットを提供します。(ii) ユーザークエリに基づいて関連するビデオセグメントを効率的に取得および処理するために、ダイナミックルーティングメカニズムと時空間プロジェクタを統合した堅牢なアーキテクチャ設計を開発します。当フレームワークは、クエリに対する関連するビデオセグメントの正確な識別と取得を可能にすることで、現行のビデオ-LMMの制約を緩和し、生成された応答の文脈的関連性を向上させます。幅広い実験を通じて、SALOVAは複雑な長尺ビデオを処理する能力が向上し、長いシーケンス全体で文脈の整合性を維持する能力を示しています。
English
Despite advances in Large Multi-modal Models, applying them to long and
untrimmed video content remains challenging due to limitations in context
length and substantial memory overhead. These constraints often lead to
significant information loss and reduced relevance in the model responses. With
the exponential growth of video data across web platforms, understanding
long-form video is crucial for advancing generalized intelligence. In this
paper, we introduce SALOVA: Segment-Augmented LOng Video Assistant, a novel
video-LLM framework designed to enhance the comprehension of lengthy video
content through targeted retrieval process. We address two main challenges to
achieve it: (i) We present the SceneWalk dataset, a high-quality collection of
87.8K long videos, each densely captioned at the segment level to enable models
to capture scene continuity and maintain rich descriptive context. (ii) We
develop robust architectural designs integrating dynamic routing mechanism and
spatio-temporal projector to efficiently retrieve and process relevant video
segments based on user queries. Our framework mitigates the limitations of
current video-LMMs by allowing for precise identification and retrieval of
relevant video segments in response to queries, thereby improving the
contextual relevance of the generated responses. Through extensive experiments,
SALOVA demonstrates enhanced capability in processing complex long-form videos,
showing significant capability to maintain contextual integrity across extended
sequences.Summary
AI-Generated Summary