Hacia la Generación Aumentada por Recuperación sobre Grandes Bibliotecas de Videos
Towards Retrieval Augmented Generation over Large Video Libraries
June 21, 2024
Autores: Yannis Tevissen, Khalil Guetari, Frédéric Petitpont
cs.AI
Resumen
Los creadores de contenido en video necesitan herramientas eficientes para reutilizar material, una tarea que a menudo requiere búsquedas manuales o automatizadas complejas. Crear un nuevo video a partir de grandes bibliotecas de contenido sigue siendo un desafío. En este artículo presentamos la tarea de Video Library Question Answering (VLQA) mediante una arquitectura interoperable que aplica Generación Aumentada por Recuperación (RAG) a bibliotecas de video. Proponemos un sistema que utiliza modelos de lenguaje de gran escala (LLMs) para generar consultas de búsqueda, recuperando momentos relevantes de video indexados por metadatos de habla y visuales. Un módulo de generación de respuestas integra las consultas del usuario con estos metadatos para producir respuestas con marcas de tiempo específicas en los videos. Este enfoque muestra potencial en la recuperación de contenido multimedia y en la creación asistida por IA de contenido en video.
English
Video content creators need efficient tools to repurpose content, a task that
often requires complex manual or automated searches. Crafting a new video from
large video libraries remains a challenge. In this paper we introduce the task
of Video Library Question Answering (VLQA) through an interoperable
architecture that applies Retrieval Augmented Generation (RAG) to video
libraries. We propose a system that uses large language models (LLMs) to
generate search queries, retrieving relevant video moments indexed by speech
and visual metadata. An answer generation module then integrates user queries
with this metadata to produce responses with specific video timestamps. This
approach shows promise in multimedia content retrieval, and AI-assisted video
content creation.Summary
AI-Generated Summary