ChatPaper.aiChatPaper

Verso la Generazione Aumentata dal Recupero su Grandi Librerie Video

Towards Retrieval Augmented Generation over Large Video Libraries

June 21, 2024
Autori: Yannis Tevissen, Khalil Guetari, Frédéric Petitpont
cs.AI

Abstract

I creatori di contenuti video necessitano di strumenti efficienti per riutilizzare i contenuti, un compito che spesso richiede ricerche complesse, manuali o automatizzate. Creare un nuovo video da ampie librerie video rimane una sfida. In questo articolo introduciamo il compito di Video Library Question Answering (VLQA) attraverso un'architettura interoperabile che applica il Retrieval Augmented Generation (RAG) alle librerie video. Proponiamo un sistema che utilizza modelli linguistici di grandi dimensioni (LLM) per generare query di ricerca, recuperando momenti video rilevanti indicizzati da metadati vocali e visivi. Un modulo di generazione delle risposte integra quindi le query degli utenti con questi metadati per produrre risposte con specifici timestamp video. Questo approccio mostra promettenti risultati nel recupero di contenuti multimediali e nella creazione di contenuti video assistita dall'IA.
English
Video content creators need efficient tools to repurpose content, a task that often requires complex manual or automated searches. Crafting a new video from large video libraries remains a challenge. In this paper we introduce the task of Video Library Question Answering (VLQA) through an interoperable architecture that applies Retrieval Augmented Generation (RAG) to video libraries. We propose a system that uses large language models (LLMs) to generate search queries, retrieving relevant video moments indexed by speech and visual metadata. An answer generation module then integrates user queries with this metadata to produce responses with specific video timestamps. This approach shows promise in multimedia content retrieval, and AI-assisted video content creation.
PDF221November 29, 2024