MultiVENT 2.0: Un amplio banco de pruebas multilingüe para la recuperación de videos centrada en eventos
MultiVENT 2.0: A Massive Multilingual Benchmark for Event-Centric Video Retrieval
October 15, 2024
Autores: Reno Kriz, Kate Sanders, David Etter, Kenton Murray, Cameron Carpenter, Kelly Van Ochten, Hannah Recknor, Jimena Guallar-Blasco, Alexander Martin, Ronald Colaianni, Nolan King, Eugene Yang, Benjamin Van Durme
cs.AI
Resumen
Recuperar y sintetizar información de manera eficiente en colecciones multimodales a gran escala se ha convertido en un desafío crítico. Sin embargo, los conjuntos de datos existentes para recuperación de videos sufren de limitaciones de alcance, centrándose principalmente en emparejar consultas descriptivas pero vagas con pequeñas colecciones de videos editados profesionalmente y centrados en el inglés. Para abordar esta brecha, presentamos MultiVENT 2.0, un banco de pruebas de recuperación de videos centrado en eventos a gran escala y multilingüe que cuenta con una colección de más de 218,000 videos de noticias y 3,906 consultas dirigidas a eventos mundiales específicos. Estas consultas apuntan específicamente a la información encontrada en el contenido visual, audio, texto incrustado y metadatos de los videos, requiriendo que los sistemas aprovechen todas estas fuentes para tener éxito en la tarea. Los resultados preliminares muestran que los modelos de visión-lenguaje de vanguardia tienen dificultades significativas con esta tarea, y aunque enfoques alternativos muestran promesa, aún son insuficientes para abordar adecuadamente este problema. Estos hallazgos subrayan la necesidad de sistemas de recuperación multimodales más robustos, ya que la recuperación efectiva de videos es un paso crucial hacia tareas de comprensión y generación de contenido multimodal.
English
Efficiently retrieving and synthesizing information from large-scale
multimodal collections has become a critical challenge. However, existing video
retrieval datasets suffer from scope limitations, primarily focusing on
matching descriptive but vague queries with small collections of professionally
edited, English-centric videos. To address this gap, we introduce
MultiVENT 2.0, a large-scale, multilingual event-centric video
retrieval benchmark featuring a collection of more than 218,000 news videos and
3,906 queries targeting specific world events. These queries specifically
target information found in the visual content, audio, embedded text, and text
metadata of the videos, requiring systems leverage all these sources to succeed
at the task. Preliminary results show that state-of-the-art vision-language
models struggle significantly with this task, and while alternative approaches
show promise, they are still insufficient to adequately address this problem.
These findings underscore the need for more robust multimodal retrieval
systems, as effective video retrieval is a crucial step towards multimodal
content understanding and generation tasks.Summary
AI-Generated Summary