VideoRAG: Поиск с дополнением генерации по видео корпусуVideoRAG: Retrieval-Augmented Generation over Video Corpus
Подход с использованием извлечения для генерации (Retrieval-Augmented Generation, RAG) является мощной стратегией для решения проблемы генерации фактически неверных результатов в базовых моделях путем извлечения внешних знаний, относящихся к запросам, и их интеграции в процесс генерации. Однако существующие подходы RAG в основном сосредоточены на текстовой информации, с некоторыми последними достижениями, начавшими учитывать изображения, и в значительной степени игнорируют видео, богатый источник мультимодальных знаний, способный эффективнее представлять события, процессы и контекстуальные детали, чем любая другая модальность. Хотя некоторые недавние исследования исследуют интеграцию видео в процесс генерации ответов, они либо заранее определяют видео, связанные с запросами, без их извлечения в соответствии с запросами, либо преобразуют видео в текстовые описания, не используя их мультимодальную насыщенность. Для решения этих проблем мы представляем VideoRAG, новую структуру, которая не только динамически извлекает соответствующие видео на основе их релевантности с запросами, но также использует как визуальную, так и текстовую информацию видео в процессе генерации вывода. Кроме того, для операционализации этого подхода наш метод основан на последних достижениях в области крупных моделей языка для видео (Large Video Language Models, LVLMs), которые позволяют непосредственно обрабатывать видеоконтент для его представления для извлечения и безшовной интеграции извлеченных видео с запросами. Мы экспериментально подтверждаем эффективность VideoRAG, показывая, что он превосходит соответствующие базовые модели.