ChatPaper.aiChatPaper

Naar Retrieval Augmented Generation over Grote Videobibliotheken

Towards Retrieval Augmented Generation over Large Video Libraries

June 21, 2024
Auteurs: Yannis Tevissen, Khalil Guetari, Frédéric Petitpont
cs.AI

Samenvatting

Videocontentmakers hebben efficiënte tools nodig om content te hergebruiken, een taak die vaak complexe handmatige of geautomatiseerde zoekopdrachten vereist. Het maken van een nieuwe video uit grote videobibliotheken blijft een uitdaging. In dit artikel introduceren we de taak van Video Library Question Answering (VLQA) via een interoperabele architectuur die Retrieval Augmented Generation (RAG) toepast op videobibliotheken. We stellen een systeem voor dat grote taalmodelen (LLMs) gebruikt om zoekopdrachten te genereren, waarbij relevante videomomenten worden opgehaald die zijn geïndexeerd op basis van spraak- en visuele metadata. Een antwoordgeneratiemodule integreert vervolgens gebruikersvragen met deze metadata om antwoorden te produceren met specifieke videotijdstempels. Deze aanpak toont potentieel op het gebied van multimedia-inhoudsretrieval en AI-ondersteunde videocontentcreatie.
English
Video content creators need efficient tools to repurpose content, a task that often requires complex manual or automated searches. Crafting a new video from large video libraries remains a challenge. In this paper we introduce the task of Video Library Question Answering (VLQA) through an interoperable architecture that applies Retrieval Augmented Generation (RAG) to video libraries. We propose a system that uses large language models (LLMs) to generate search queries, retrieving relevant video moments indexed by speech and visual metadata. An answer generation module then integrates user queries with this metadata to produce responses with specific video timestamps. This approach shows promise in multimedia content retrieval, and AI-assisted video content creation.
PDF221November 29, 2024