VideoRAG: Поиск с дополнением генерации по видео корпусу
VideoRAG: Retrieval-Augmented Generation over Video Corpus
January 10, 2025
Авторы: Soyeong Jeong, Kangsan Kim, Jinheon Baek, Sung Ju Hwang
cs.AI
Аннотация
Подход с использованием извлечения для генерации (Retrieval-Augmented Generation, RAG) является мощной стратегией для решения проблемы генерации фактически неверных результатов в базовых моделях путем извлечения внешних знаний, относящихся к запросам, и их интеграции в процесс генерации. Однако существующие подходы RAG в основном сосредоточены на текстовой информации, с некоторыми последними достижениями, начавшими учитывать изображения, и в значительной степени игнорируют видео, богатый источник мультимодальных знаний, способный эффективнее представлять события, процессы и контекстуальные детали, чем любая другая модальность. Хотя некоторые недавние исследования исследуют интеграцию видео в процесс генерации ответов, они либо заранее определяют видео, связанные с запросами, без их извлечения в соответствии с запросами, либо преобразуют видео в текстовые описания, не используя их мультимодальную насыщенность. Для решения этих проблем мы представляем VideoRAG, новую структуру, которая не только динамически извлекает соответствующие видео на основе их релевантности с запросами, но также использует как визуальную, так и текстовую информацию видео в процессе генерации вывода. Кроме того, для операционализации этого подхода наш метод основан на последних достижениях в области крупных моделей языка для видео (Large Video Language Models, LVLMs), которые позволяют непосредственно обрабатывать видеоконтент для его представления для извлечения и безшовной интеграции извлеченных видео с запросами. Мы экспериментально подтверждаем эффективность VideoRAG, показывая, что он превосходит соответствующие базовые модели.
English
Retrieval-Augmented Generation (RAG) is a powerful strategy to address the
issue of generating factually incorrect outputs in foundation models by
retrieving external knowledge relevant to queries and incorporating it into
their generation process. However, existing RAG approaches have primarily
focused on textual information, with some recent advancements beginning to
consider images, and they largely overlook videos, a rich source of multimodal
knowledge capable of representing events, processes, and contextual details
more effectively than any other modality. While a few recent studies explore
the integration of videos in the response generation process, they either
predefine query-associated videos without retrieving them according to queries,
or convert videos into the textual descriptions without harnessing their
multimodal richness. To tackle these, we introduce VideoRAG, a novel framework
that not only dynamically retrieves relevant videos based on their relevance
with queries but also utilizes both visual and textual information of videos in
the output generation. Further, to operationalize this, our method revolves
around the recent advance of Large Video Language Models (LVLMs), which enable
the direct processing of video content to represent it for retrieval and
seamless integration of the retrieved videos jointly with queries. We
experimentally validate the effectiveness of VideoRAG, showcasing that it is
superior to relevant baselines.Summary
AI-Generated Summary