VideoRAG: ビデオコーパス上の検索増強生成VideoRAG: Retrieval-Augmented Generation over Video Corpus
Retrieval-Augmented Generation(RAG)は、基盤モデルにおける事実に反する出力を生成する問題に対処するための強力な戦略であり、クエリに関連する外部知識を取得し、それを生成プロセスに組み込むことでこれを実現します。ただし、既存のRAGアプローチは主にテキスト情報に焦点を当てており、最近の進展により画像を考慮し始めていますが、ビデオという豊富なマルチモーダルな知識源は、他のモダリティよりもイベント、プロセス、および文脈の詳細をより効果的に表現できるにも関わらず、ほとんど無視されています。最近の研究では、ビデオを応答生成プロセスに統合することを探求していますが、クエリに基づいてビデオを取得せずに事前に定義されたビデオを使用するか、ビデオをテキストの説明に変換するだけで、そのマルチモーダルな豊かさを活用していません。これらに対処するために、我々はVideoRAGという新しいフレームワークを導入します。このフレームワークは、クエリとの関連性に基づいて関連するビデオを動的に取得するだけでなく、ビデオの視覚情報とテキスト情報の両方を出力生成に活用します。さらに、これを実現するために、我々の手法は、ビデオコンテンツを直接処理して取得およびクエリと共に取得したビデオをシームレスに統合することを可能にするLarge Video Language Models(LVLMs)の最近の進歩に基づいています。我々はVideoRAGの効果を実験的に検証し、それが関連するベースラインよりも優れていることを示しています。