MultiVENT 2.0 : Un vaste banc d'essai multilingue pour la recherche d'événements dans les vidéos.

papers.abstract

Récupérer et synthétiser efficacement des informations à partir de collections multimodales à grande échelle est devenu un défi critique. Cependant, les ensembles de données existants pour la recherche de vidéos souffrent de limitations de portée, se concentrant principalement sur l'association de requêtes descriptives mais vagues avec de petites collections de vidéos professionnellement éditées et centrées sur l'anglais. Pour combler cette lacune, nous présentons MultiVENT 2.0, un banc d'essai de recherche de vidéos centré sur les événements à grande échelle et multilingue, comprenant une collection de plus de 218 000 vidéos d'actualités et 3 906 requêtes ciblant des événements mondiaux spécifiques. Ces requêtes ciblent spécifiquement les informations présentes dans le contenu visuel, l'audio, le texte intégré et les métadonnées textuelles des vidéos, exigeant que les systèmes exploitent toutes ces sources pour réussir la tâche. Les résultats préliminaires montrent que les modèles vision-langage de pointe rencontrent des difficultés significatives avec cette tâche, et bien que des approches alternatives montrent des promesses, elles sont encore insuffisantes pour résoudre adéquatement ce problème. Ces conclusions soulignent le besoin de systèmes de recherche multimodale plus robustes, car une recherche de vidéos efficace est une étape cruciale vers les tâches de compréhension et de génération de contenu multimodal.

English

Efficiently retrieving and synthesizing information from large-scale multimodal collections has become a critical challenge. However, existing video retrieval datasets suffer from scope limitations, primarily focusing on matching descriptive but vague queries with small collections of professionally edited, English-centric videos. To address this gap, we introduce MultiVENT 2.0, a large-scale, multilingual event-centric video retrieval benchmark featuring a collection of more than 218,000 news videos and 3,906 queries targeting specific world events. These queries specifically target information found in the visual content, audio, embedded text, and text metadata of the videos, requiring systems leverage all these sources to succeed at the task. Preliminary results show that state-of-the-art vision-language models struggle significantly with this task, and while alternative approaches show promise, they are still insufficient to adequately address this problem. These findings underscore the need for more robust multimodal retrieval systems, as effective video retrieval is a crucial step towards multimodal content understanding and generation tasks.

MultiVENT 2.0 : Un vaste banc d'essai multilingue pour la recherche d'événements dans les vidéos.

MultiVENT 2.0: A Massive Multilingual Benchmark for Event-Centric Video Retrieval

papers.abstract

Support