WikiVideo : Génération d'articles à partir de plusieurs vidéos
WikiVideo: Article Generation from Multiple Videos
April 1, 2025
Auteurs: Alexander Martin, Reno Kriz, William Gantt Walden, Kate Sanders, Hannah Recknor, Eugene Yang, Francis Ferraro, Benjamin Van Durme
cs.AI
Résumé
Nous présentons la tâche complexe de création automatique d'articles de style Wikipédia de haut niveau, qui agrègent des informations provenant de multiples vidéos diverses sur des événements réels, tels que des catastrophes naturelles ou des élections politiques. Les vidéos constituent des sources intuitives pour la génération augmentée par la recherche (RAG), mais la plupart des workflows RAG contemporains se concentrent principalement sur le texte, et les méthodes existantes pour le résumé basé sur la vidéo se focalisent sur la compréhension de scènes de bas niveau plutôt que sur la sémantique d'événements de haut niveau. Pour combler cette lacune, nous introduisons WikiVideo, un benchmark composé d'articles rédigés par des experts et de vidéos annotées de manière dense, qui fournissent des preuves pour les affirmations des articles, facilitant ainsi l'intégration de la vidéo dans les pipelines RAG et permettant la création de contenu approfondi ancré dans des sources multimodales. Nous proposons également la Génération Collaborative d'Articles (CAG), une méthode interactive novatrice pour la création d'articles à partir de multiples vidéos. La CAG exploite une interaction itérative entre un modèle de raisonnement de style r1 et un VideoLLM pour tirer des inférences de plus haut niveau sur l'événement cible que ce qui est possible avec les VideoLLM seuls, qui se concentrent sur des caractéristiques visuelles de bas niveau. Nous évaluons les VideoLLM de pointe et la CAG dans des contextes de récupération oracle et de RAG, et constatons que la CAG surpasse systématiquement les méthodes alternatives, tout en suggérant des pistes intrigantes pour les travaux futurs.
English
We present the challenging task of automatically creating a high-level
Wikipedia-style article that aggregates information from multiple diverse
videos about real-world events, such as natural disasters or political
elections. Videos are intuitive sources for retrieval-augmented generation
(RAG), but most contemporary RAG workflows focus heavily on text and existing
methods for video-based summarization focus on low-level scene understanding
rather than high-level event semantics. To close this gap, we introduce
WikiVideo, a benchmark consisting of expert-written articles and densely
annotated videos that provide evidence for articles' claims, facilitating the
integration of video into RAG pipelines and enabling the creation of in-depth
content that is grounded in multimodal sources. We further propose
Collaborative Article Generation (CAG), a novel interactive method for article
creation from multiple videos. CAG leverages an iterative interaction between
an r1-style reasoning model and a VideoLLM to draw higher level inferences
about the target event than is possible with VideoLLMs alone, which fixate on
low-level visual features. We benchmark state-of-the-art VideoLLMs and CAG in
both oracle retrieval and RAG settings and find that CAG consistently
outperforms alternative methods, while suggesting intriguing avenues for future
work.Summary
AI-Generated Summary