대규모 비디오 라이브러리를 대상으로 한 검색 강화 생성 모델 연구
Towards Retrieval Augmented Generation over Large Video Libraries
June 21, 2024
저자: Yannis Tevissen, Khalil Guetari, Frédéric Petitpont
cs.AI
초록
비디오 콘텐츠 제작자들은 콘텐츠를 재활용하기 위한 효율적인 도구가 필요하며, 이 작업은 종종 복잡한 수동 또는 자동화된 검색을 요구합니다. 대규모 비디오 라이브러리에서 새로운 비디오를 제작하는 것은 여전히 어려운 과제입니다. 본 논문에서는 비디오 라이브러리에 검색 증강 생성(Retrieval Augmented Generation, RAG)을 적용하는 상호 운용 가능한 아키텍처를 통해 비디오 라이브러리 질의 응답(Video Library Question Answering, VLQA) 작업을 소개합니다. 우리는 대규모 언어 모델(Large Language Models, LLMs)을 사용하여 검색 쿼리를 생성하고, 음성 및 시각 메타데이터로 인덱싱된 관련 비디오 클립을 검색하는 시스템을 제안합니다. 그런 다음, 답변 생성 모듈은 사용자 쿼리와 이 메타데이터를 통합하여 특정 비디오 타임스탬프가 포함된 응답을 생성합니다. 이 접근 방식은 멀티미디어 콘텐츠 검색 및 AI 지원 비디오 콘텐츠 생성 분야에서 유망한 가능성을 보여줍니다.
English
Video content creators need efficient tools to repurpose content, a task that
often requires complex manual or automated searches. Crafting a new video from
large video libraries remains a challenge. In this paper we introduce the task
of Video Library Question Answering (VLQA) through an interoperable
architecture that applies Retrieval Augmented Generation (RAG) to video
libraries. We propose a system that uses large language models (LLMs) to
generate search queries, retrieving relevant video moments indexed by speech
and visual metadata. An answer generation module then integrates user queries
with this metadata to produce responses with specific video timestamps. This
approach shows promise in multimedia content retrieval, and AI-assisted video
content creation.Summary
AI-Generated Summary