Vers une Génération Augmentée par la Récupération sur de Vastes Bibliothèques Vidéo
Towards Retrieval Augmented Generation over Large Video Libraries
June 21, 2024
Auteurs: Yannis Tevissen, Khalil Guetari, Frédéric Petitpont
cs.AI
Résumé
Les créateurs de contenu vidéo ont besoin d'outils efficaces pour réutiliser leur contenu, une tâche qui nécessite souvent des recherches manuelles ou automatisées complexes. Créer une nouvelle vidéo à partir de vastes bibliothèques vidéo reste un défi. Dans cet article, nous introduisons la tâche de Question-Réponse sur Bibliothèque Vidéo (VLQA) à travers une architecture interopérable qui applique la Génération Augmentée par Récupération (RAG) aux bibliothèques vidéo. Nous proposons un système qui utilise des modèles de langage de grande taille (LLMs) pour générer des requêtes de recherche, récupérant ainsi des moments vidéo pertinents indexés par des métadonnées vocales et visuelles. Un module de génération de réponses intègre ensuite les requêtes des utilisateurs avec ces métadonnées pour produire des réponses accompagnées de timestamps vidéo spécifiques. Cette approche montre des perspectives prometteuses dans la récupération de contenu multimédia et la création de contenu vidéo assistée par l'IA.
English
Video content creators need efficient tools to repurpose content, a task that
often requires complex manual or automated searches. Crafting a new video from
large video libraries remains a challenge. In this paper we introduce the task
of Video Library Question Answering (VLQA) through an interoperable
architecture that applies Retrieval Augmented Generation (RAG) to video
libraries. We propose a system that uses large language models (LLMs) to
generate search queries, retrieving relevant video moments indexed by speech
and visual metadata. An answer generation module then integrates user queries
with this metadata to produce responses with specific video timestamps. This
approach shows promise in multimedia content retrieval, and AI-assisted video
content creation.Summary
AI-Generated Summary