WikiVideo: Geração de Artigos a Partir de Múltiplos Vídeos

Resumo

Apresentamos a tarefa desafiadora de criar automaticamente um artigo de alto nível no estilo da Wikipedia que agrega informações de diversos vídeos sobre eventos do mundo real, como desastres naturais ou eleições políticas. Os vídeos são fontes intuitivas para geração aumentada por recuperação (RAG, do inglês Retrieval-Augmented Generation), mas a maioria dos fluxos de trabalho contemporâneos de RAG foca fortemente em texto, e os métodos existentes para sumarização baseada em vídeo concentram-se no entendimento de cenas de baixo nível em vez da semântica de eventos de alto nível. Para preencher essa lacuna, introduzimos o WikiVideo, um benchmark composto por artigos escritos por especialistas e vídeos densamente anotados que fornecem evidências para as afirmações dos artigos, facilitando a integração de vídeos em pipelines de RAG e permitindo a criação de conteúdo detalhado fundamentado em fontes multimodais. Além disso, propomos a Geração Colaborativa de Artigos (CAG, do inglês Collaborative Article Generation), um método interativo inovador para a criação de artigos a partir de múltiplos vídeos. O CAG aproveita uma interação iterativa entre um modelo de raciocínio no estilo r1 e um VideoLLM para inferir conclusões de nível mais alto sobre o evento-alvo do que é possível com VideoLLMs isoladamente, que se fixam em características visuais de baixo nível. Avaliamos VideoLLMs de última geração e o CAG em cenários de recuperação oráculo e RAG, e descobrimos que o CAG supera consistentemente métodos alternativos, ao mesmo tempo que sugere caminhos intrigantes para trabalhos futuros.

English

We present the challenging task of automatically creating a high-level Wikipedia-style article that aggregates information from multiple diverse videos about real-world events, such as natural disasters or political elections. Videos are intuitive sources for retrieval-augmented generation (RAG), but most contemporary RAG workflows focus heavily on text and existing methods for video-based summarization focus on low-level scene understanding rather than high-level event semantics. To close this gap, we introduce WikiVideo, a benchmark consisting of expert-written articles and densely annotated videos that provide evidence for articles' claims, facilitating the integration of video into RAG pipelines and enabling the creation of in-depth content that is grounded in multimodal sources. We further propose Collaborative Article Generation (CAG), a novel interactive method for article creation from multiple videos. CAG leverages an iterative interaction between an r1-style reasoning model and a VideoLLM to draw higher level inferences about the target event than is possible with VideoLLMs alone, which fixate on low-level visual features. We benchmark state-of-the-art VideoLLMs and CAG in both oracle retrieval and RAG settings and find that CAG consistently outperforms alternative methods, while suggesting intriguing avenues for future work.

WikiVideo: Geração de Artigos a Partir de Múltiplos Vídeos

WikiVideo: Article Generation from Multiple Videos

Resumo

Summary

Support

Support