ChatPaper.aiChatPaper

VideoRAG: Generación con Recuperación Mejorada sobre un Corpus de Video

VideoRAG: Retrieval-Augmented Generation over Video Corpus

January 10, 2025
Autores: Soyeong Jeong, Kangsan Kim, Jinheon Baek, Sung Ju Hwang
cs.AI

Resumen

La Generación con Recuperación Aumentada (RAG, por sus siglas en inglés) es una estrategia poderosa para abordar el problema de generar salidas incorrectas desde el punto de vista factual en modelos base mediante la recuperación de conocimiento externo relevante a las consultas e incorporándolo en su proceso de generación. Sin embargo, los enfoques RAG existentes se han centrado principalmente en información textual, con algunos avances recientes que comienzan a considerar imágenes, y en gran medida pasan por alto los videos, una fuente rica de conocimiento multimodal capaz de representar eventos, procesos y detalles contextuales de manera más efectiva que cualquier otra modalidad. Aunque algunos estudios recientes exploran la integración de videos en el proceso de generación de respuestas, o bien predefinen videos asociados a consultas sin recuperarlos según las consultas, o convierten videos en descripciones textuales sin aprovechar su riqueza multimodal. Para abordar esto, presentamos VideoRAG, un marco novedoso que no solo recupera dinámicamente videos relevantes basados en su relevancia con las consultas, sino que también utiliza tanto la información visual como textual de los videos en la generación de salidas. Además, para operacionalizar esto, nuestro método gira en torno al reciente avance de los Modelos de Lenguaje para Videos a Gran Escala (LVLMs, por sus siglas en inglés), que permiten el procesamiento directo del contenido de video para representarlo en la recuperación e integración fluida de los videos recuperados conjuntamente con las consultas. Validamos experimentalmente la efectividad de VideoRAG, demostrando que es superior a los baselines relevantes.
English
Retrieval-Augmented Generation (RAG) is a powerful strategy to address the issue of generating factually incorrect outputs in foundation models by retrieving external knowledge relevant to queries and incorporating it into their generation process. However, existing RAG approaches have primarily focused on textual information, with some recent advancements beginning to consider images, and they largely overlook videos, a rich source of multimodal knowledge capable of representing events, processes, and contextual details more effectively than any other modality. While a few recent studies explore the integration of videos in the response generation process, they either predefine query-associated videos without retrieving them according to queries, or convert videos into the textual descriptions without harnessing their multimodal richness. To tackle these, we introduce VideoRAG, a novel framework that not only dynamically retrieves relevant videos based on their relevance with queries but also utilizes both visual and textual information of videos in the output generation. Further, to operationalize this, our method revolves around the recent advance of Large Video Language Models (LVLMs), which enable the direct processing of video content to represent it for retrieval and seamless integration of the retrieved videos jointly with queries. We experimentally validate the effectiveness of VideoRAG, showcasing that it is superior to relevant baselines.

Summary

AI-Generated Summary

PDF726January 13, 2025