WikiVideo: Geração de Artigos a Partir de Múltiplos Vídeos
WikiVideo: Article Generation from Multiple Videos
April 1, 2025
Autores: Alexander Martin, Reno Kriz, William Gantt Walden, Kate Sanders, Hannah Recknor, Eugene Yang, Francis Ferraro, Benjamin Van Durme
cs.AI
Resumo
Apresentamos a tarefa desafiadora de criar automaticamente um artigo de alto nível no estilo da Wikipedia que agrega informações de diversos vídeos sobre eventos do mundo real, como desastres naturais ou eleições políticas. Os vídeos são fontes intuitivas para geração aumentada por recuperação (RAG, do inglês Retrieval-Augmented Generation), mas a maioria dos fluxos de trabalho contemporâneos de RAG foca fortemente em texto, e os métodos existentes para sumarização baseada em vídeo concentram-se no entendimento de cenas de baixo nível em vez da semântica de eventos de alto nível. Para preencher essa lacuna, introduzimos o WikiVideo, um benchmark composto por artigos escritos por especialistas e vídeos densamente anotados que fornecem evidências para as afirmações dos artigos, facilitando a integração de vídeos em pipelines de RAG e permitindo a criação de conteúdo detalhado fundamentado em fontes multimodais. Além disso, propomos a Geração Colaborativa de Artigos (CAG, do inglês Collaborative Article Generation), um método interativo inovador para a criação de artigos a partir de múltiplos vídeos. O CAG aproveita uma interação iterativa entre um modelo de raciocínio no estilo r1 e um VideoLLM para inferir conclusões de nível mais alto sobre o evento-alvo do que é possível com VideoLLMs isoladamente, que se fixam em características visuais de baixo nível. Avaliamos VideoLLMs de última geração e o CAG em cenários de recuperação oráculo e RAG, e descobrimos que o CAG supera consistentemente métodos alternativos, ao mesmo tempo que sugere caminhos intrigantes para trabalhos futuros.
English
We present the challenging task of automatically creating a high-level
Wikipedia-style article that aggregates information from multiple diverse
videos about real-world events, such as natural disasters or political
elections. Videos are intuitive sources for retrieval-augmented generation
(RAG), but most contemporary RAG workflows focus heavily on text and existing
methods for video-based summarization focus on low-level scene understanding
rather than high-level event semantics. To close this gap, we introduce
WikiVideo, a benchmark consisting of expert-written articles and densely
annotated videos that provide evidence for articles' claims, facilitating the
integration of video into RAG pipelines and enabling the creation of in-depth
content that is grounded in multimodal sources. We further propose
Collaborative Article Generation (CAG), a novel interactive method for article
creation from multiple videos. CAG leverages an iterative interaction between
an r1-style reasoning model and a VideoLLM to draw higher level inferences
about the target event than is possible with VideoLLMs alone, which fixate on
low-level visual features. We benchmark state-of-the-art VideoLLMs and CAG in
both oracle retrieval and RAG settings and find that CAG consistently
outperforms alternative methods, while suggesting intriguing avenues for future
work.Summary
AI-Generated Summary