MultiVENT 2.0: Um amplo benchmark multilíngue para recuperação de vídeos centrada em eventos.
MultiVENT 2.0: A Massive Multilingual Benchmark for Event-Centric Video Retrieval
October 15, 2024
Autores: Reno Kriz, Kate Sanders, David Etter, Kenton Murray, Cameron Carpenter, Kelly Van Ochten, Hannah Recknor, Jimena Guallar-Blasco, Alexander Martin, Ronald Colaianni, Nolan King, Eugene Yang, Benjamin Van Durme
cs.AI
Resumo
Recuperar e sintetizar informações de coleções multimodais em larga escala de forma eficiente tornou-se um desafio crítico. No entanto, os conjuntos de dados existentes para recuperação de vídeo sofrem de limitações de escopo, focando principalmente em corresponder consultas descritivas, porém vagas, com pequenas coleções de vídeos editados profissionalmente e centrados no inglês. Para abordar essa lacuna, apresentamos o MultiVENT 2.0, um benchmark de recuperação de vídeo centrado em eventos, em larga escala e multilíngue, que apresenta uma coleção com mais de 218.000 vídeos de notícias e 3.906 consultas direcionadas a eventos mundiais específicos. Essas consultas visam especificamente informações encontradas no conteúdo visual, áudio, texto incorporado e metadados de texto dos vídeos, exigindo que os sistemas aproveitem todas essas fontes para ter sucesso na tarefa. Resultados preliminares mostram que os modelos de visão-linguagem de ponta enfrentam dificuldades significativas nessa tarefa e, embora abordagens alternativas mostrem promessa, ainda são insuficientes para lidar adequadamente com esse problema. Essas descobertas destacam a necessidade de sistemas de recuperação multimodais mais robustos, pois a recuperação eficaz de vídeo é um passo crucial em direção a tarefas de compreensão e geração de conteúdo multimodal.
English
Efficiently retrieving and synthesizing information from large-scale
multimodal collections has become a critical challenge. However, existing video
retrieval datasets suffer from scope limitations, primarily focusing on
matching descriptive but vague queries with small collections of professionally
edited, English-centric videos. To address this gap, we introduce
MultiVENT 2.0, a large-scale, multilingual event-centric video
retrieval benchmark featuring a collection of more than 218,000 news videos and
3,906 queries targeting specific world events. These queries specifically
target information found in the visual content, audio, embedded text, and text
metadata of the videos, requiring systems leverage all these sources to succeed
at the task. Preliminary results show that state-of-the-art vision-language
models struggle significantly with this task, and while alternative approaches
show promise, they are still insufficient to adequately address this problem.
These findings underscore the need for more robust multimodal retrieval
systems, as effective video retrieval is a crucial step towards multimodal
content understanding and generation tasks.Summary
AI-Generated Summary