ChatPaper.aiChatPaper

VideoVista-CulturalLingo: Horizontes 360° - Conectando Culturas, Idiomas y Dominios en la Comprensión de Videos

VideoVista-CulturalLingo: 360^circ Horizons-Bridging Cultures, Languages, and Domains in Video Comprehension

April 23, 2025
Autores: Xinyu Chen, Yunxin Li, Haoyuan Shi, Baotian Hu, Wenhan Luo, Yaowei Wang, Min Zhang
cs.AI

Resumen

Evaluar las capacidades de comprensión de video en sistemas de IA multimodal puede medir efectivamente sus habilidades de entendimiento y razonamiento. La mayoría de los puntos de referencia para la evaluación de video se limitan a un solo idioma, generalmente el inglés, y presentan predominantemente videos arraigados en contextos culturales occidentales. En este artículo, presentamos VideoVista-CulturalLingo, el primer punto de referencia de evaluación de video diseñado para cerrar la brecha cultural, lingüística y de dominio en la comprensión de video. Nuestro trabajo se diferencia de los puntos de referencia existentes de las siguientes maneras: 1) Diversidad cultural, incorporando culturas de China, América del Norte y Europa; 2) Multilingüismo, con preguntas presentadas en chino e inglés, dos de los idiomas más hablados; y 3) Amplio dominio, con videos obtenidos de cientos de dominios creados por humanos. VideoVista-CulturalLingo contiene 1,389 videos y 3,134 pares de preguntas y respuestas, y hemos evaluado 24 modelos grandes de video recientes, ya sean de código abierto o propietarios. A partir de los resultados del experimento, observamos que: 1) Los modelos existentes tienen un peor desempeño en preguntas centradas en China que en las centradas en Occidente, particularmente aquellas relacionadas con la historia china; 2) Los modelos de código abierto actuales aún muestran limitaciones en la comprensión temporal, especialmente en la tarea de Localización de Eventos, alcanzando una puntuación máxima de solo 45.2%; 3) Los modelos principales demuestran un fuerte desempeño en preguntas científicas generales, mientras que los modelos de código abierto muestran un desempeño débil en matemáticas.
English
Assessing the video comprehension capabilities of multimodal AI systems can effectively measure their understanding and reasoning abilities. Most video evaluation benchmarks are limited to a single language, typically English, and predominantly feature videos rooted in Western cultural contexts. In this paper, we present VideoVista-CulturalLingo, the first video evaluation benchmark designed to bridge cultural, linguistic, and domain divide in video comprehension. Our work differs from existing benchmarks in the following ways: 1) Cultural diversity, incorporating cultures from China, North America, and Europe; 2) Multi-linguistics, with questions presented in Chinese and English-two of the most widely spoken languages; and 3) Broad domain, featuring videos sourced from hundreds of human-created domains. VideoVista-CulturalLingo contains 1,389 videos and 3,134 QA pairs, and we have evaluated 24 recent open-source or proprietary video large models. From the experiment results, we observe that: 1) Existing models perform worse on Chinese-centric questions than Western-centric ones, particularly those related to Chinese history; 2) Current open-source models still exhibit limitations in temporal understanding, especially in the Event Localization task, achieving a maximum score of only 45.2%; 3) Mainstream models demonstrate strong performance in general scientific questions, while open-source models demonstrate weak performance in mathematics.

Summary

AI-Generated Summary

PDF212April 28, 2025