VideoRAG: Ophalen-Augmentatie Generatie over Videocorpus
VideoRAG: Retrieval-Augmented Generation over Video Corpus
January 10, 2025
Auteurs: Soyeong Jeong, Kangsan Kim, Jinheon Baek, Sung Ju Hwang
cs.AI
Samenvatting
Retrieval-Augmented Generation (RAG) is een krachtige strategie om het probleem van het genereren van feitelijk onjuiste uitvoer in basismodellen aan te pakken door externe kennis die relevant is voor vragen op te halen en deze in hun generatieproces op te nemen. Bestaande RAG-benaderingen hebben zich echter voornamelijk gericht op tekstuele informatie, waarbij sommige recente ontwikkelingen beginnen om ook afbeeldingen te overwegen, en ze zien grotendeels video's over het hoofd, een rijke bron van multimodale kennis die gebeurtenissen, processen en contextuele details effectiever kan weergeven dan enige andere modaliteit. Hoewel enkele recente studies de integratie van video's in het responsgeneratieproces verkennen, definiëren ze ofwel vooraf query-geassocieerde video's zonder deze op te halen op basis van vragen, of zetten ze video's om in tekstuele beschrijvingen zonder hun multimodale rijkdom te benutten. Om deze uitdagingen aan te pakken, introduceren we VideoRAG, een nieuw raamwerk dat niet alleen dynamisch relevante video's ophaalt op basis van hun relevantie met vragen, maar ook zowel visuele als tekstuele informatie van video's gebruikt in de uitvoergeneratie. Verder draait onze methode om de recente vooruitgang van Grote Video Taalmodellen (LVLM's), die het directe verwerken van videomateriaal mogelijk maken om het te representeren voor ophalen en naadloze integratie van de opgehaalde video's gezamenlijk met vragen. We valideren experimenteel de effectiviteit van VideoRAG, waarbij we aantonen dat het superieur is aan relevante baselines.
English
Retrieval-Augmented Generation (RAG) is a powerful strategy to address the
issue of generating factually incorrect outputs in foundation models by
retrieving external knowledge relevant to queries and incorporating it into
their generation process. However, existing RAG approaches have primarily
focused on textual information, with some recent advancements beginning to
consider images, and they largely overlook videos, a rich source of multimodal
knowledge capable of representing events, processes, and contextual details
more effectively than any other modality. While a few recent studies explore
the integration of videos in the response generation process, they either
predefine query-associated videos without retrieving them according to queries,
or convert videos into the textual descriptions without harnessing their
multimodal richness. To tackle these, we introduce VideoRAG, a novel framework
that not only dynamically retrieves relevant videos based on their relevance
with queries but also utilizes both visual and textual information of videos in
the output generation. Further, to operationalize this, our method revolves
around the recent advance of Large Video Language Models (LVLMs), which enable
the direct processing of video content to represent it for retrieval and
seamless integration of the retrieved videos jointly with queries. We
experimentally validate the effectiveness of VideoRAG, showcasing that it is
superior to relevant baselines.Summary
AI-Generated Summary