VideoRAG: Ophalen-Augmentatie Generatie over Videocorpus

Samenvatting

Retrieval-Augmented Generation (RAG) is een krachtige strategie om het probleem van het genereren van feitelijk onjuiste uitvoer in basismodellen aan te pakken door externe kennis die relevant is voor vragen op te halen en deze in hun generatieproces op te nemen. Bestaande RAG-benaderingen hebben zich echter voornamelijk gericht op tekstuele informatie, waarbij sommige recente ontwikkelingen beginnen om ook afbeeldingen te overwegen, en ze zien grotendeels video's over het hoofd, een rijke bron van multimodale kennis die gebeurtenissen, processen en contextuele details effectiever kan weergeven dan enige andere modaliteit. Hoewel enkele recente studies de integratie van video's in het responsgeneratieproces verkennen, definiëren ze ofwel vooraf query-geassocieerde video's zonder deze op te halen op basis van vragen, of zetten ze video's om in tekstuele beschrijvingen zonder hun multimodale rijkdom te benutten. Om deze uitdagingen aan te pakken, introduceren we VideoRAG, een nieuw raamwerk dat niet alleen dynamisch relevante video's ophaalt op basis van hun relevantie met vragen, maar ook zowel visuele als tekstuele informatie van video's gebruikt in de uitvoergeneratie. Verder draait onze methode om de recente vooruitgang van Grote Video Taalmodellen (LVLM's), die het directe verwerken van videomateriaal mogelijk maken om het te representeren voor ophalen en naadloze integratie van de opgehaalde video's gezamenlijk met vragen. We valideren experimenteel de effectiviteit van VideoRAG, waarbij we aantonen dat het superieur is aan relevante baselines.

English

Retrieval-Augmented Generation (RAG) is a powerful strategy to address the issue of generating factually incorrect outputs in foundation models by retrieving external knowledge relevant to queries and incorporating it into their generation process. However, existing RAG approaches have primarily focused on textual information, with some recent advancements beginning to consider images, and they largely overlook videos, a rich source of multimodal knowledge capable of representing events, processes, and contextual details more effectively than any other modality. While a few recent studies explore the integration of videos in the response generation process, they either predefine query-associated videos without retrieving them according to queries, or convert videos into the textual descriptions without harnessing their multimodal richness. To tackle these, we introduce VideoRAG, a novel framework that not only dynamically retrieves relevant videos based on their relevance with queries but also utilizes both visual and textual information of videos in the output generation. Further, to operationalize this, our method revolves around the recent advance of Large Video Language Models (LVLMs), which enable the direct processing of video content to represent it for retrieval and seamless integration of the retrieved videos jointly with queries. We experimentally validate the effectiveness of VideoRAG, showcasing that it is superior to relevant baselines.

VideoRAG: Ophalen-Augmentatie Generatie over Videocorpus

VideoRAG: Retrieval-Augmented Generation over Video Corpus

Samenvatting

Summary

Support

Support