WikiVideo: Artikelgeneratie uit Meerdere Video's
WikiVideo: Article Generation from Multiple Videos
April 1, 2025
Auteurs: Alexander Martin, Reno Kriz, William Gantt Walden, Kate Sanders, Hannah Recknor, Eugene Yang, Francis Ferraro, Benjamin Van Durme
cs.AI
Samenvatting
We presenteren de uitdagende taak om automatisch een hoogwaardig Wikipedia-stijl artikel te creëren dat informatie samenvoegt uit meerdere diverse video's over real-world gebeurtenissen, zoals natuurrampen of politieke verkiezingen. Video's zijn intuïtieve bronnen voor retrieval-augmented generation (RAG), maar de meeste hedendaagse RAG-workflows richten zich sterk op tekst en bestaande methoden voor video-gebaseerde samenvatting focussen op laag-niveau scènebegrip in plaats van hoog-niveau gebeurtenissemantiek. Om deze kloof te dichten, introduceren we WikiVideo, een benchmark bestaande uit door experts geschreven artikelen en dicht geannoteerde video's die bewijs leveren voor de claims in de artikelen, waardoor de integratie van video in RAG-pipelines wordt gefaciliteerd en de creatie van diepgaande inhoud die gegrond is in multimodale bronnen mogelijk wordt gemaakt. We stellen verder Collaborative Article Generation (CAG) voor, een nieuwe interactieve methode voor het creëren van artikelen uit meerdere video's. CAG maakt gebruik van een iteratieve interactie tussen een r1-stijl redeneermodel en een VideoLLM om hogere niveau inferenties te trekken over de doelgebeurtenis dan mogelijk is met VideoLLMs alleen, die zich fixeren op laag-niveau visuele kenmerken. We benchmarken state-of-the-art VideoLLMs en CAG in zowel oracle retrieval- als RAG-instellingen en vinden dat CAG consistent beter presteert dan alternatieve methoden, terwijl het intrigerende mogelijkheden voor toekomstig werk suggereert.
English
We present the challenging task of automatically creating a high-level
Wikipedia-style article that aggregates information from multiple diverse
videos about real-world events, such as natural disasters or political
elections. Videos are intuitive sources for retrieval-augmented generation
(RAG), but most contemporary RAG workflows focus heavily on text and existing
methods for video-based summarization focus on low-level scene understanding
rather than high-level event semantics. To close this gap, we introduce
WikiVideo, a benchmark consisting of expert-written articles and densely
annotated videos that provide evidence for articles' claims, facilitating the
integration of video into RAG pipelines and enabling the creation of in-depth
content that is grounded in multimodal sources. We further propose
Collaborative Article Generation (CAG), a novel interactive method for article
creation from multiple videos. CAG leverages an iterative interaction between
an r1-style reasoning model and a VideoLLM to draw higher level inferences
about the target event than is possible with VideoLLMs alone, which fixate on
low-level visual features. We benchmark state-of-the-art VideoLLMs and CAG in
both oracle retrieval and RAG settings and find that CAG consistently
outperforms alternative methods, while suggesting intriguing avenues for future
work.