VideoRAG : Génération augmentée par récupération sur corpus vidéo

papers.abstract

La Génération Augmentée par Récupération (RAG) est une stratégie puissante pour résoudre le problème de la génération de sorties incorrectes sur le plan factuel dans les modèles de base en récupérant des connaissances externes pertinentes pour les requêtes et en les incorporant dans leur processus de génération. Cependant, les approches RAG existantes se sont principalement concentrées sur les informations textuelles, avec quelques avancées récentes commençant à considérer les images, et elles négligent largement les vidéos, une source riche de connaissances multimodales capable de représenter des événements, des processus et des détails contextuels de manière plus efficace que toute autre modalité. Alors que quelques études récentes explorent l'intégration de vidéos dans le processus de génération de réponses, elles pré-définissent soit des vidéos associées à des requêtes sans les récupérer selon les requêtes, soit convertissent des vidéos en descriptions textuelles sans exploiter leur richesse multimodale. Pour relever ces défis, nous présentons VideoRAG, un nouveau cadre qui non seulement récupère dynamiquement des vidéos pertinentes en fonction de leur pertinence avec les requêtes, mais utilise également à la fois les informations visuelles et textuelles des vidéos dans la génération de sortie. De plus, pour opérationnaliser cela, notre méthode s'appuie sur l'avancée récente des Grands Modèles de Langage Vidéo (LVLMs), qui permettent le traitement direct du contenu vidéo pour le représenter en vue de la récupération et de l'intégration transparente des vidéos récupérées conjointement avec les requêtes. Nous validons expérimentalement l'efficacité de VideoRAG, démontrant qu'il est supérieur aux bases de référence pertinentes.

English

Retrieval-Augmented Generation (RAG) is a powerful strategy to address the issue of generating factually incorrect outputs in foundation models by retrieving external knowledge relevant to queries and incorporating it into their generation process. However, existing RAG approaches have primarily focused on textual information, with some recent advancements beginning to consider images, and they largely overlook videos, a rich source of multimodal knowledge capable of representing events, processes, and contextual details more effectively than any other modality. While a few recent studies explore the integration of videos in the response generation process, they either predefine query-associated videos without retrieving them according to queries, or convert videos into the textual descriptions without harnessing their multimodal richness. To tackle these, we introduce VideoRAG, a novel framework that not only dynamically retrieves relevant videos based on their relevance with queries but also utilizes both visual and textual information of videos in the output generation. Further, to operationalize this, our method revolves around the recent advance of Large Video Language Models (LVLMs), which enable the direct processing of video content to represent it for retrieval and seamless integration of the retrieved videos jointly with queries. We experimentally validate the effectiveness of VideoRAG, showcasing that it is superior to relevant baselines.

VideoRAG : Génération augmentée par récupération sur corpus vidéo

VideoRAG: Retrieval-Augmented Generation over Video Corpus

papers.abstract

Support