Richtung Abruf-erweiterte Generierung über große Videobibliotheken
Towards Retrieval Augmented Generation over Large Video Libraries
June 21, 2024
Autoren: Yannis Tevissen, Khalil Guetari, Frédéric Petitpont
cs.AI
Zusammenfassung
Video-Content-Ersteller benötigen effiziente Tools zur Wiederverwertung von Inhalten, eine Aufgabe, die oft komplexe manuelle oder automatisierte Suchvorgänge erfordert. Die Erstellung eines neuen Videos aus umfangreichen Video-Bibliotheken bleibt eine Herausforderung. In diesem Papier stellen wir die Aufgabe der Video-Bibliotheks-Fragenbeantwortung (VLQA) durch eine interoperable Architektur vor, die Retrieval Augmented Generation (RAG) auf Video-Bibliotheken anwendet. Wir schlagen ein System vor, das große Sprachmodelle (LLMs) verwendet, um Suchanfragen zu generieren, relevante Videomomente abzurufen, die anhand von Sprach- und visuellen Metadaten indiziert sind. Ein Antwortgenerierungsmodul integriert dann Benutzeranfragen mit diesen Metadaten, um Antworten mit spezifischen Videostempeln zu erstellen. Dieser Ansatz zeigt vielversprechende Ergebnisse bei der Multimediainhaltsabfrage und der KI-unterstützten Videoinhalts-Erstellung.
English
Video content creators need efficient tools to repurpose content, a task that
often requires complex manual or automated searches. Crafting a new video from
large video libraries remains a challenge. In this paper we introduce the task
of Video Library Question Answering (VLQA) through an interoperable
architecture that applies Retrieval Augmented Generation (RAG) to video
libraries. We propose a system that uses large language models (LLMs) to
generate search queries, retrieving relevant video moments indexed by speech
and visual metadata. An answer generation module then integrates user queries
with this metadata to produce responses with specific video timestamps. This
approach shows promise in multimedia content retrieval, and AI-assisted video
content creation.