VideoRAG: Ophalen-Augmentatie Generatie over VideocorpusVideoRAG: Retrieval-Augmented Generation over Video Corpus
Retrieval-Augmented Generation (RAG) is een krachtige strategie om het probleem van het genereren van feitelijk onjuiste uitvoer in basismodellen aan te pakken door externe kennis die relevant is voor vragen op te halen en deze in hun generatieproces op te nemen. Bestaande RAG-benaderingen hebben zich echter voornamelijk gericht op tekstuele informatie, waarbij sommige recente ontwikkelingen beginnen om ook afbeeldingen te overwegen, en ze zien grotendeels video's over het hoofd, een rijke bron van multimodale kennis die gebeurtenissen, processen en contextuele details effectiever kan weergeven dan enige andere modaliteit. Hoewel enkele recente studies de integratie van video's in het responsgeneratieproces verkennen, definiëren ze ofwel vooraf query-geassocieerde video's zonder deze op te halen op basis van vragen, of zetten ze video's om in tekstuele beschrijvingen zonder hun multimodale rijkdom te benutten. Om deze uitdagingen aan te pakken, introduceren we VideoRAG, een nieuw raamwerk dat niet alleen dynamisch relevante video's ophaalt op basis van hun relevantie met vragen, maar ook zowel visuele als tekstuele informatie van video's gebruikt in de uitvoergeneratie. Verder draait onze methode om de recente vooruitgang van Grote Video Taalmodellen (LVLM's), die het directe verwerken van videomateriaal mogelijk maken om het te representeren voor ophalen en naadloze integratie van de opgehaalde video's gezamenlijk met vragen. We valideren experimenteel de effectiviteit van VideoRAG, waarbij we aantonen dat het superieur is aan relevante baselines.