ChatPaper.aiChatPaper

大規模ビデオライブラリを対象とした検索拡張生成に向けて

Towards Retrieval Augmented Generation over Large Video Libraries

June 21, 2024
著者: Yannis Tevissen, Khalil Guetari, Frédéric Petitpont
cs.AI

要旨

ビデオコンテンツクリエイターは、コンテンツを再利用するための効率的なツールを必要としており、これはしばしば複雑な手動または自動検索を必要とする作業です。大規模なビデオライブラリから新しいビデオを作成することは依然として課題です。本論文では、ビデオライブラリ質問応答(VLQA)というタスクを、ビデオライブラリに検索拡張生成(RAG)を適用する相互運用可能なアーキテクチャを通じて紹介します。我々は、大規模言語モデル(LLM)を使用して検索クエリを生成し、音声および視覚的メタデータによってインデックス化された関連ビデオの瞬間を検索するシステムを提案します。回答生成モジュールは、ユーザークエリとこのメタデータを統合し、特定のビデオタイムスタンプを含む応答を生成します。このアプローチは、マルチメディアコンテンツ検索およびAI支援ビデオコンテンツ作成において有望であることを示しています。
English
Video content creators need efficient tools to repurpose content, a task that often requires complex manual or automated searches. Crafting a new video from large video libraries remains a challenge. In this paper we introduce the task of Video Library Question Answering (VLQA) through an interoperable architecture that applies Retrieval Augmented Generation (RAG) to video libraries. We propose a system that uses large language models (LLMs) to generate search queries, retrieving relevant video moments indexed by speech and visual metadata. An answer generation module then integrates user queries with this metadata to produce responses with specific video timestamps. This approach shows promise in multimedia content retrieval, and AI-assisted video content creation.

Summary

AI-Generated Summary

PDF211November 29, 2024