Hacia la Generación Aumentada por Recuperación sobre Grandes Bibliotecas de Videos

Resumen

Los creadores de contenido en video necesitan herramientas eficientes para reutilizar material, una tarea que a menudo requiere búsquedas manuales o automatizadas complejas. Crear un nuevo video a partir de grandes bibliotecas de contenido sigue siendo un desafío. En este artículo presentamos la tarea de Video Library Question Answering (VLQA) mediante una arquitectura interoperable que aplica Generación Aumentada por Recuperación (RAG) a bibliotecas de video. Proponemos un sistema que utiliza modelos de lenguaje de gran escala (LLMs) para generar consultas de búsqueda, recuperando momentos relevantes de video indexados por metadatos de habla y visuales. Un módulo de generación de respuestas integra las consultas del usuario con estos metadatos para producir respuestas con marcas de tiempo específicas en los videos. Este enfoque muestra potencial en la recuperación de contenido multimedia y en la creación asistida por IA de contenido en video.

English

Video content creators need efficient tools to repurpose content, a task that often requires complex manual or automated searches. Crafting a new video from large video libraries remains a challenge. In this paper we introduce the task of Video Library Question Answering (VLQA) through an interoperable architecture that applies Retrieval Augmented Generation (RAG) to video libraries. We propose a system that uses large language models (LLMs) to generate search queries, retrieving relevant video moments indexed by speech and visual metadata. An answer generation module then integrates user queries with this metadata to produce responses with specific video timestamps. This approach shows promise in multimedia content retrieval, and AI-assisted video content creation.

Hacia la Generación Aumentada por Recuperación sobre Grandes Bibliotecas de Videos

Towards Retrieval Augmented Generation over Large Video Libraries

Resumen

Support