VideoRAG : Génération augmentée par récupération sur corpus vidéoVideoRAG: Retrieval-Augmented Generation over Video Corpus
La Génération Augmentée par Récupération (RAG) est une stratégie puissante pour résoudre le problème de la génération de sorties incorrectes sur le plan factuel dans les modèles de base en récupérant des connaissances externes pertinentes pour les requêtes et en les incorporant dans leur processus de génération. Cependant, les approches RAG existantes se sont principalement concentrées sur les informations textuelles, avec quelques avancées récentes commençant à considérer les images, et elles négligent largement les vidéos, une source riche de connaissances multimodales capable de représenter des événements, des processus et des détails contextuels de manière plus efficace que toute autre modalité. Alors que quelques études récentes explorent l'intégration de vidéos dans le processus de génération de réponses, elles pré-définissent soit des vidéos associées à des requêtes sans les récupérer selon les requêtes, soit convertissent des vidéos en descriptions textuelles sans exploiter leur richesse multimodale. Pour relever ces défis, nous présentons VideoRAG, un nouveau cadre qui non seulement récupère dynamiquement des vidéos pertinentes en fonction de leur pertinence avec les requêtes, mais utilise également à la fois les informations visuelles et textuelles des vidéos dans la génération de sortie. De plus, pour opérationnaliser cela, notre méthode s'appuie sur l'avancée récente des Grands Modèles de Langage Vidéo (LVLMs), qui permettent le traitement direct du contenu vidéo pour le représenter en vue de la récupération et de l'intégration transparente des vidéos récupérées conjointement avec les requêtes. Nous validons expérimentalement l'efficacité de VideoRAG, démontrant qu'il est supérieur aux bases de référence pertinentes.