VideoRAG : Génération augmentée par récupération sur corpus vidéo
VideoRAG: Retrieval-Augmented Generation over Video Corpus
January 10, 2025
Auteurs: Soyeong Jeong, Kangsan Kim, Jinheon Baek, Sung Ju Hwang
cs.AI
Résumé
La Génération Augmentée par Récupération (RAG) est une stratégie puissante pour résoudre le problème de la génération de sorties incorrectes sur le plan factuel dans les modèles de base en récupérant des connaissances externes pertinentes pour les requêtes et en les incorporant dans leur processus de génération. Cependant, les approches RAG existantes se sont principalement concentrées sur les informations textuelles, avec quelques avancées récentes commençant à considérer les images, et elles négligent largement les vidéos, une source riche de connaissances multimodales capable de représenter des événements, des processus et des détails contextuels de manière plus efficace que toute autre modalité. Alors que quelques études récentes explorent l'intégration de vidéos dans le processus de génération de réponses, elles pré-définissent soit des vidéos associées à des requêtes sans les récupérer selon les requêtes, soit convertissent des vidéos en descriptions textuelles sans exploiter leur richesse multimodale. Pour relever ces défis, nous présentons VideoRAG, un nouveau cadre qui non seulement récupère dynamiquement des vidéos pertinentes en fonction de leur pertinence avec les requêtes, mais utilise également à la fois les informations visuelles et textuelles des vidéos dans la génération de sortie. De plus, pour opérationnaliser cela, notre méthode s'appuie sur l'avancée récente des Grands Modèles de Langage Vidéo (LVLMs), qui permettent le traitement direct du contenu vidéo pour le représenter en vue de la récupération et de l'intégration transparente des vidéos récupérées conjointement avec les requêtes. Nous validons expérimentalement l'efficacité de VideoRAG, démontrant qu'il est supérieur aux bases de référence pertinentes.
English
Retrieval-Augmented Generation (RAG) is a powerful strategy to address the
issue of generating factually incorrect outputs in foundation models by
retrieving external knowledge relevant to queries and incorporating it into
their generation process. However, existing RAG approaches have primarily
focused on textual information, with some recent advancements beginning to
consider images, and they largely overlook videos, a rich source of multimodal
knowledge capable of representing events, processes, and contextual details
more effectively than any other modality. While a few recent studies explore
the integration of videos in the response generation process, they either
predefine query-associated videos without retrieving them according to queries,
or convert videos into the textual descriptions without harnessing their
multimodal richness. To tackle these, we introduce VideoRAG, a novel framework
that not only dynamically retrieves relevant videos based on their relevance
with queries but also utilizes both visual and textual information of videos in
the output generation. Further, to operationalize this, our method revolves
around the recent advance of Large Video Language Models (LVLMs), which enable
the direct processing of video content to represent it for retrieval and
seamless integration of the retrieved videos jointly with queries. We
experimentally validate the effectiveness of VideoRAG, showcasing that it is
superior to relevant baselines.Summary
AI-Generated Summary