ChatPaper.aiChatPaper

WikiVideo: Artikelgenerierung aus mehreren Videos

WikiVideo: Article Generation from Multiple Videos

April 1, 2025
Autoren: Alexander Martin, Reno Kriz, William Gantt Walden, Kate Sanders, Hannah Recknor, Eugene Yang, Francis Ferraro, Benjamin Van Durme
cs.AI

Zusammenfassung

Wir stellen die anspruchsvolle Aufgabe vor, automatisch einen hochwertigen Wikipedia-Artikel zu erstellen, der Informationen aus mehreren diversen Videos über reale Ereignisse wie Naturkatastrophen oder politische Wahlen zusammenfasst. Videos sind intuitive Quellen für retrieval-augmentierte Generierung (RAG), doch die meisten zeitgenössischen RAG-Workflows konzentrieren sich stark auf Text, und bestehende Methoden für videobasierte Zusammenfassungen beschäftigen sich eher mit dem Verständnis von Szenen auf niedriger Ebene als mit der Semantik von Ereignissen auf höherer Ebene. Um diese Lücke zu schließen, führen wir WikiVideo ein, einen Benchmark, der von Experten verfasste Artikel und dicht annotierte Videos umfasst, die Belege für die Behauptungen in den Artikeln liefern. Dies erleichtert die Integration von Videos in RAG-Pipelines und ermöglicht die Erstellung von tiefgehendem Inhalt, der auf multimodalen Quellen basiert. Darüber hinaus schlagen wir Collaborative Article Generation (CAG) vor, eine neuartige interaktive Methode zur Artikelerstellung aus mehreren Videos. CAG nutzt eine iterative Interaktion zwischen einem r1-artigen Reasoning-Modell und einem VideoLLM, um höhere Schlussfolgerungen über das Zielereignis zu ziehen, als dies mit VideoLLMs allein möglich ist, die sich auf visuelle Merkmale auf niedriger Ebene konzentrieren. Wir benchmarken state-of-the-art VideoLLMs und CAG sowohl in Oracle-Retrieval- als auch in RAG-Szenarien und stellen fest, dass CAG durchweg besser abschneidet als alternative Methoden, während es interessante Ansätze für zukünftige Arbeiten aufzeigt.
English
We present the challenging task of automatically creating a high-level Wikipedia-style article that aggregates information from multiple diverse videos about real-world events, such as natural disasters or political elections. Videos are intuitive sources for retrieval-augmented generation (RAG), but most contemporary RAG workflows focus heavily on text and existing methods for video-based summarization focus on low-level scene understanding rather than high-level event semantics. To close this gap, we introduce WikiVideo, a benchmark consisting of expert-written articles and densely annotated videos that provide evidence for articles' claims, facilitating the integration of video into RAG pipelines and enabling the creation of in-depth content that is grounded in multimodal sources. We further propose Collaborative Article Generation (CAG), a novel interactive method for article creation from multiple videos. CAG leverages an iterative interaction between an r1-style reasoning model and a VideoLLM to draw higher level inferences about the target event than is possible with VideoLLMs alone, which fixate on low-level visual features. We benchmark state-of-the-art VideoLLMs and CAG in both oracle retrieval and RAG settings and find that CAG consistently outperforms alternative methods, while suggesting intriguing avenues for future work.

Summary

AI-Generated Summary

PDF363April 4, 2025