WikiVideo: 다중 비디오 기반 문서 생성
WikiVideo: Article Generation from Multiple Videos
April 1, 2025
저자: Alexander Martin, Reno Kriz, William Gantt Walden, Kate Sanders, Hannah Recknor, Eugene Yang, Francis Ferraro, Benjamin Van Durme
cs.AI
초록
우리는 자연재해나 정치 선거와 같은 실제 사건에 대해 다양한 비디오들로부터 정보를 종합하여 위키피디아 스타일의 고수준 기사를 자동으로 생성하는 도전적인 과제를 제시한다. 비디오는 검색 증강 생성(Retrieval-Augmented Generation, RAG)을 위한 직관적인 소스이지만, 대부분의 현대 RAG 워크플로우는 텍스트에 치중되어 있으며, 비디오 기반 요약을 위한 기존 방법들은 고수준 사건 의미론보다는 저수준 장면 이해에 초점을 맞추고 있다. 이러한 격차를 해소하기 위해, 우리는 전문가가 작성한 기사와 기사의 주장을 뒷받침하는 밀도 높은 주석이 달린 비디오로 구성된 WikiVideo 벤치마크를 소개한다. 이는 비디오를 RAG 파이프라인에 통합하고 다중모달 소스에 기반한 심층적인 콘텐츠 생성이 가능하도록 한다. 또한, 우리는 다중 비디오로부터 기사를 생성하기 위한 새로운 상호작용 방식인 협업 기사 생성(Collaborative Article Generation, CAG)을 제안한다. CAG는 r1 스타일 추론 모델과 VideoLLM 간의 반복적 상호작용을 활용하여, 저수준 시각적 특징에 고정된 VideoLLM만으로는 불가능한 대상 사건에 대한 고수준 추론을 도출한다. 우리는 최첨단 VideoLLM과 CAG를 오라클 검색 및 RAG 설정에서 벤치마크한 결과, CAG가 대안 방법들을 지속적으로 능가하며, 향후 연구를 위한 흥미로운 방향을 제시함을 발견했다.
English
We present the challenging task of automatically creating a high-level
Wikipedia-style article that aggregates information from multiple diverse
videos about real-world events, such as natural disasters or political
elections. Videos are intuitive sources for retrieval-augmented generation
(RAG), but most contemporary RAG workflows focus heavily on text and existing
methods for video-based summarization focus on low-level scene understanding
rather than high-level event semantics. To close this gap, we introduce
WikiVideo, a benchmark consisting of expert-written articles and densely
annotated videos that provide evidence for articles' claims, facilitating the
integration of video into RAG pipelines and enabling the creation of in-depth
content that is grounded in multimodal sources. We further propose
Collaborative Article Generation (CAG), a novel interactive method for article
creation from multiple videos. CAG leverages an iterative interaction between
an r1-style reasoning model and a VideoLLM to draw higher level inferences
about the target event than is possible with VideoLLMs alone, which fixate on
low-level visual features. We benchmark state-of-the-art VideoLLMs and CAG in
both oracle retrieval and RAG settings and find that CAG consistently
outperforms alternative methods, while suggesting intriguing avenues for future
work.Summary
AI-Generated Summary