ChatPaper.aiChatPaper

Rumo à Geração Aprimorada por Recuperação em Grandes Bibliotecas de Vídeo

Towards Retrieval Augmented Generation over Large Video Libraries

June 21, 2024
Autores: Yannis Tevissen, Khalil Guetari, Frédéric Petitpont
cs.AI

Resumo

Os criadores de conteúdo de vídeo precisam de ferramentas eficientes para reutilizar conteúdo, uma tarefa que frequentemente requer buscas manuais ou automatizadas complexas. Criar um novo vídeo a partir de extensas bibliotecas de vídeos ainda é um desafio. Neste artigo, apresentamos a tarefa de Resposta a Perguntas de Biblioteca de Vídeo (VLQA) por meio de uma arquitetura interoperável que aplica Geração Aprimorada por Recuperação (RAG) a bibliotecas de vídeo. Propomos um sistema que utiliza grandes modelos de linguagem (LLMs) para gerar consultas de pesquisa, recuperando momentos de vídeo relevantes indexados por metadados de fala e visual. Um módulo de geração de respostas então integra as consultas do usuário com esses metadados para produzir respostas com timestamps de vídeo específicos. Esta abordagem mostra promessa na recuperação de conteúdo multimídia e na criação de conteúdo de vídeo assistida por IA.
English
Video content creators need efficient tools to repurpose content, a task that often requires complex manual or automated searches. Crafting a new video from large video libraries remains a challenge. In this paper we introduce the task of Video Library Question Answering (VLQA) through an interoperable architecture that applies Retrieval Augmented Generation (RAG) to video libraries. We propose a system that uses large language models (LLMs) to generate search queries, retrieving relevant video moments indexed by speech and visual metadata. An answer generation module then integrates user queries with this metadata to produce responses with specific video timestamps. This approach shows promise in multimedia content retrieval, and AI-assisted video content creation.
PDF221November 29, 2024