ChatPaper.aiChatPaper

Vers une Génération Augmentée par la Récupération sur de Vastes Bibliothèques Vidéo

Towards Retrieval Augmented Generation over Large Video Libraries

June 21, 2024
Auteurs: Yannis Tevissen, Khalil Guetari, Frédéric Petitpont
cs.AI

Résumé

Les créateurs de contenu vidéo ont besoin d'outils efficaces pour réutiliser leur contenu, une tâche qui nécessite souvent des recherches manuelles ou automatisées complexes. Créer une nouvelle vidéo à partir de vastes bibliothèques vidéo reste un défi. Dans cet article, nous introduisons la tâche de Question-Réponse sur Bibliothèque Vidéo (VLQA) à travers une architecture interopérable qui applique la Génération Augmentée par Récupération (RAG) aux bibliothèques vidéo. Nous proposons un système qui utilise des modèles de langage de grande taille (LLMs) pour générer des requêtes de recherche, récupérant ainsi des moments vidéo pertinents indexés par des métadonnées vocales et visuelles. Un module de génération de réponses intègre ensuite les requêtes des utilisateurs avec ces métadonnées pour produire des réponses accompagnées de timestamps vidéo spécifiques. Cette approche montre des perspectives prometteuses dans la récupération de contenu multimédia et la création de contenu vidéo assistée par l'IA.
English
Video content creators need efficient tools to repurpose content, a task that often requires complex manual or automated searches. Crafting a new video from large video libraries remains a challenge. In this paper we introduce the task of Video Library Question Answering (VLQA) through an interoperable architecture that applies Retrieval Augmented Generation (RAG) to video libraries. We propose a system that uses large language models (LLMs) to generate search queries, retrieving relevant video moments indexed by speech and visual metadata. An answer generation module then integrates user queries with this metadata to produce responses with specific video timestamps. This approach shows promise in multimedia content retrieval, and AI-assisted video content creation.

Summary

AI-Generated Summary

PDF211November 29, 2024