ChatPaper.aiChatPaper

WikiVideo: Генерация статей на основе нескольких видеороликов

WikiVideo: Article Generation from Multiple Videos

April 1, 2025
Авторы: Alexander Martin, Reno Kriz, William Gantt Walden, Kate Sanders, Hannah Recknor, Eugene Yang, Francis Ferraro, Benjamin Van Durme
cs.AI

Аннотация

Мы представляем сложную задачу автоматического создания высокоуровневой статьи в стиле Википедии, которая объединяет информацию из множества разнообразных видеоматериалов о реальных событиях, таких как природные катастрофы или политические выборы. Видео являются интуитивно понятными источниками для генерации с использованием извлечения информации (RAG), однако большинство современных подходов RAG сосредоточено преимущественно на тексте, а существующие методы для видеосуммаризации ориентированы на низкоуровневое понимание сцен, а не на высокоуровневую семантику событий. Чтобы устранить этот пробел, мы представляем WikiVideo — эталонный набор, состоящий из экспертно написанных статей и плотно аннотированных видеоматериалов, которые предоставляют доказательства для утверждений в статьях, что способствует интеграции видео в RAG-процессы и позволяет создавать глубокий контент, основанный на мультимодальных источниках. Мы также предлагаем Collaborative Article Generation (CAG) — новый интерактивный метод создания статей из нескольких видеоматериалов. CAG использует итеративное взаимодействие между моделью рассуждений в стиле r1 и VideoLLM для вывода более высокоуровневых заключений о целевом событии, чем это возможно с использованием только VideoLLM, которые сосредоточены на низкоуровневых визуальных признаках. Мы тестируем современные VideoLLM и CAG в условиях как оракульного извлечения, так и RAG и обнаруживаем, что CAG стабильно превосходит альтернативные методы, одновременно предлагая интригующие направления для будущих исследований.
English
We present the challenging task of automatically creating a high-level Wikipedia-style article that aggregates information from multiple diverse videos about real-world events, such as natural disasters or political elections. Videos are intuitive sources for retrieval-augmented generation (RAG), but most contemporary RAG workflows focus heavily on text and existing methods for video-based summarization focus on low-level scene understanding rather than high-level event semantics. To close this gap, we introduce WikiVideo, a benchmark consisting of expert-written articles and densely annotated videos that provide evidence for articles' claims, facilitating the integration of video into RAG pipelines and enabling the creation of in-depth content that is grounded in multimodal sources. We further propose Collaborative Article Generation (CAG), a novel interactive method for article creation from multiple videos. CAG leverages an iterative interaction between an r1-style reasoning model and a VideoLLM to draw higher level inferences about the target event than is possible with VideoLLMs alone, which fixate on low-level visual features. We benchmark state-of-the-art VideoLLMs and CAG in both oracle retrieval and RAG settings and find that CAG consistently outperforms alternative methods, while suggesting intriguing avenues for future work.

Summary

AI-Generated Summary

PDF363April 4, 2025