MultiVENT 2.0 : Un vaste banc d'essai multilingue pour la recherche d'événements dans les vidéos.
MultiVENT 2.0: A Massive Multilingual Benchmark for Event-Centric Video Retrieval
October 15, 2024
Auteurs: Reno Kriz, Kate Sanders, David Etter, Kenton Murray, Cameron Carpenter, Kelly Van Ochten, Hannah Recknor, Jimena Guallar-Blasco, Alexander Martin, Ronald Colaianni, Nolan King, Eugene Yang, Benjamin Van Durme
cs.AI
Résumé
Récupérer et synthétiser efficacement des informations à partir de collections multimodales à grande échelle est devenu un défi critique. Cependant, les ensembles de données existants pour la recherche de vidéos souffrent de limitations de portée, se concentrant principalement sur l'association de requêtes descriptives mais vagues avec de petites collections de vidéos professionnellement éditées et centrées sur l'anglais. Pour combler cette lacune, nous présentons MultiVENT 2.0, un banc d'essai de recherche de vidéos centré sur les événements à grande échelle et multilingue, comprenant une collection de plus de 218 000 vidéos d'actualités et 3 906 requêtes ciblant des événements mondiaux spécifiques. Ces requêtes ciblent spécifiquement les informations présentes dans le contenu visuel, l'audio, le texte intégré et les métadonnées textuelles des vidéos, exigeant que les systèmes exploitent toutes ces sources pour réussir la tâche. Les résultats préliminaires montrent que les modèles vision-langage de pointe rencontrent des difficultés significatives avec cette tâche, et bien que des approches alternatives montrent des promesses, elles sont encore insuffisantes pour résoudre adéquatement ce problème. Ces conclusions soulignent le besoin de systèmes de recherche multimodale plus robustes, car une recherche de vidéos efficace est une étape cruciale vers les tâches de compréhension et de génération de contenu multimodal.
English
Efficiently retrieving and synthesizing information from large-scale
multimodal collections has become a critical challenge. However, existing video
retrieval datasets suffer from scope limitations, primarily focusing on
matching descriptive but vague queries with small collections of professionally
edited, English-centric videos. To address this gap, we introduce
MultiVENT 2.0, a large-scale, multilingual event-centric video
retrieval benchmark featuring a collection of more than 218,000 news videos and
3,906 queries targeting specific world events. These queries specifically
target information found in the visual content, audio, embedded text, and text
metadata of the videos, requiring systems leverage all these sources to succeed
at the task. Preliminary results show that state-of-the-art vision-language
models struggle significantly with this task, and while alternative approaches
show promise, they are still insufficient to adequately address this problem.
These findings underscore the need for more robust multimodal retrieval
systems, as effective video retrieval is a crucial step towards multimodal
content understanding and generation tasks.Summary
AI-Generated Summary