MultiVENT 2.0: Un amplio banco de pruebas multilingüe para la recuperación de videos centrada en eventos

Resumen

Recuperar y sintetizar información de manera eficiente en colecciones multimodales a gran escala se ha convertido en un desafío crítico. Sin embargo, los conjuntos de datos existentes para recuperación de videos sufren de limitaciones de alcance, centrándose principalmente en emparejar consultas descriptivas pero vagas con pequeñas colecciones de videos editados profesionalmente y centrados en el inglés. Para abordar esta brecha, presentamos MultiVENT 2.0, un banco de pruebas de recuperación de videos centrado en eventos a gran escala y multilingüe que cuenta con una colección de más de 218,000 videos de noticias y 3,906 consultas dirigidas a eventos mundiales específicos. Estas consultas apuntan específicamente a la información encontrada en el contenido visual, audio, texto incrustado y metadatos de los videos, requiriendo que los sistemas aprovechen todas estas fuentes para tener éxito en la tarea. Los resultados preliminares muestran que los modelos de visión-lenguaje de vanguardia tienen dificultades significativas con esta tarea, y aunque enfoques alternativos muestran promesa, aún son insuficientes para abordar adecuadamente este problema. Estos hallazgos subrayan la necesidad de sistemas de recuperación multimodales más robustos, ya que la recuperación efectiva de videos es un paso crucial hacia tareas de comprensión y generación de contenido multimodal.

English

Efficiently retrieving and synthesizing information from large-scale multimodal collections has become a critical challenge. However, existing video retrieval datasets suffer from scope limitations, primarily focusing on matching descriptive but vague queries with small collections of professionally edited, English-centric videos. To address this gap, we introduce MultiVENT 2.0, a large-scale, multilingual event-centric video retrieval benchmark featuring a collection of more than 218,000 news videos and 3,906 queries targeting specific world events. These queries specifically target information found in the visual content, audio, embedded text, and text metadata of the videos, requiring systems leverage all these sources to succeed at the task. Preliminary results show that state-of-the-art vision-language models struggle significantly with this task, and while alternative approaches show promise, they are still insufficient to adequately address this problem. These findings underscore the need for more robust multimodal retrieval systems, as effective video retrieval is a crucial step towards multimodal content understanding and generation tasks.

MultiVENT 2.0: Un amplio banco de pruebas multilingüe para la recuperación de videos centrada en eventos

MultiVENT 2.0: A Massive Multilingual Benchmark for Event-Centric Video Retrieval

Resumen

Support