WikiVideo : Génération d'articles à partir de plusieurs vidéos

papers.abstract

Nous présentons la tâche complexe de création automatique d'articles de style Wikipédia de haut niveau, qui agrègent des informations provenant de multiples vidéos diverses sur des événements réels, tels que des catastrophes naturelles ou des élections politiques. Les vidéos constituent des sources intuitives pour la génération augmentée par la recherche (RAG), mais la plupart des workflows RAG contemporains se concentrent principalement sur le texte, et les méthodes existantes pour le résumé basé sur la vidéo se focalisent sur la compréhension de scènes de bas niveau plutôt que sur la sémantique d'événements de haut niveau. Pour combler cette lacune, nous introduisons WikiVideo, un benchmark composé d'articles rédigés par des experts et de vidéos annotées de manière dense, qui fournissent des preuves pour les affirmations des articles, facilitant ainsi l'intégration de la vidéo dans les pipelines RAG et permettant la création de contenu approfondi ancré dans des sources multimodales. Nous proposons également la Génération Collaborative d'Articles (CAG), une méthode interactive novatrice pour la création d'articles à partir de multiples vidéos. La CAG exploite une interaction itérative entre un modèle de raisonnement de style r1 et un VideoLLM pour tirer des inférences de plus haut niveau sur l'événement cible que ce qui est possible avec les VideoLLM seuls, qui se concentrent sur des caractéristiques visuelles de bas niveau. Nous évaluons les VideoLLM de pointe et la CAG dans des contextes de récupération oracle et de RAG, et constatons que la CAG surpasse systématiquement les méthodes alternatives, tout en suggérant des pistes intrigantes pour les travaux futurs.

English

We present the challenging task of automatically creating a high-level Wikipedia-style article that aggregates information from multiple diverse videos about real-world events, such as natural disasters or political elections. Videos are intuitive sources for retrieval-augmented generation (RAG), but most contemporary RAG workflows focus heavily on text and existing methods for video-based summarization focus on low-level scene understanding rather than high-level event semantics. To close this gap, we introduce WikiVideo, a benchmark consisting of expert-written articles and densely annotated videos that provide evidence for articles' claims, facilitating the integration of video into RAG pipelines and enabling the creation of in-depth content that is grounded in multimodal sources. We further propose Collaborative Article Generation (CAG), a novel interactive method for article creation from multiple videos. CAG leverages an iterative interaction between an r1-style reasoning model and a VideoLLM to draw higher level inferences about the target event than is possible with VideoLLMs alone, which fixate on low-level visual features. We benchmark state-of-the-art VideoLLMs and CAG in both oracle retrieval and RAG settings and find that CAG consistently outperforms alternative methods, while suggesting intriguing avenues for future work.

WikiVideo : Génération d'articles à partir de plusieurs vidéos

WikiVideo: Article Generation from Multiple Videos

papers.abstract

Support