К направлению улучшения генерации с использованием поиска по большим видео библиотекам.
Towards Retrieval Augmented Generation over Large Video Libraries
June 21, 2024
Авторы: Yannis Tevissen, Khalil Guetari, Frédéric Petitpont
cs.AI
Аннотация
Создателям видеоконтента необходимы эффективные инструменты для повторного использования контента, задача, которая часто требует сложных ручных или автоматизированных поисков. Создание нового видео из больших видеобиблиотек остается вызовом. В данной статье мы представляем задачу Ответов на Вопросы о Видеобиблиотеке (VLQA) через совместимую архитектуру, которая применяет Расширенное Поисково-Генеративное (RAG) к видеобиблиотекам. Мы предлагаем систему, которая использует большие языковые модели (LLM) для генерации поисковых запросов, извлекая соответствующие видеомоменты, индексированные речью и визуальными метаданными. Затем модуль генерации ответов интегрирует запросы пользователей с этими метаданными для создания ответов с конкретными временными метками видео. Этот подход обещает в области поиска мультимедийного контента и создания видеоконтента с помощью искусственного интеллекта.
English
Video content creators need efficient tools to repurpose content, a task that
often requires complex manual or automated searches. Crafting a new video from
large video libraries remains a challenge. In this paper we introduce the task
of Video Library Question Answering (VLQA) through an interoperable
architecture that applies Retrieval Augmented Generation (RAG) to video
libraries. We propose a system that uses large language models (LLMs) to
generate search queries, retrieving relevant video moments indexed by speech
and visual metadata. An answer generation module then integrates user queries
with this metadata to produce responses with specific video timestamps. This
approach shows promise in multimedia content retrieval, and AI-assisted video
content creation.Summary
AI-Generated Summary