MultiVENT 2.0: Um amplo benchmark multilíngue para recuperação de vídeos centrada em eventos.

Resumo

Recuperar e sintetizar informações de coleções multimodais em larga escala de forma eficiente tornou-se um desafio crítico. No entanto, os conjuntos de dados existentes para recuperação de vídeo sofrem de limitações de escopo, focando principalmente em corresponder consultas descritivas, porém vagas, com pequenas coleções de vídeos editados profissionalmente e centrados no inglês. Para abordar essa lacuna, apresentamos o MultiVENT 2.0, um benchmark de recuperação de vídeo centrado em eventos, em larga escala e multilíngue, que apresenta uma coleção com mais de 218.000 vídeos de notícias e 3.906 consultas direcionadas a eventos mundiais específicos. Essas consultas visam especificamente informações encontradas no conteúdo visual, áudio, texto incorporado e metadados de texto dos vídeos, exigindo que os sistemas aproveitem todas essas fontes para ter sucesso na tarefa. Resultados preliminares mostram que os modelos de visão-linguagem de ponta enfrentam dificuldades significativas nessa tarefa e, embora abordagens alternativas mostrem promessa, ainda são insuficientes para lidar adequadamente com esse problema. Essas descobertas destacam a necessidade de sistemas de recuperação multimodais mais robustos, pois a recuperação eficaz de vídeo é um passo crucial em direção a tarefas de compreensão e geração de conteúdo multimodal.

English

Efficiently retrieving and synthesizing information from large-scale multimodal collections has become a critical challenge. However, existing video retrieval datasets suffer from scope limitations, primarily focusing on matching descriptive but vague queries with small collections of professionally edited, English-centric videos. To address this gap, we introduce MultiVENT 2.0, a large-scale, multilingual event-centric video retrieval benchmark featuring a collection of more than 218,000 news videos and 3,906 queries targeting specific world events. These queries specifically target information found in the visual content, audio, embedded text, and text metadata of the videos, requiring systems leverage all these sources to succeed at the task. Preliminary results show that state-of-the-art vision-language models struggle significantly with this task, and while alternative approaches show promise, they are still insufficient to adequately address this problem. These findings underscore the need for more robust multimodal retrieval systems, as effective video retrieval is a crucial step towards multimodal content understanding and generation tasks.

MultiVENT 2.0: Um amplo benchmark multilíngue para recuperação de vídeos centrada em eventos.

MultiVENT 2.0: A Massive Multilingual Benchmark for Event-Centric Video Retrieval

Resumo

Support