ChatPaper.aiChatPaper

VideoVista-CulturalLingo: Orizzonti a 360^circ - Colmare Culture, Lingue e Domini nella Comprensione Video

VideoVista-CulturalLingo: 360^circ Horizons-Bridging Cultures, Languages, and Domains in Video Comprehension

April 23, 2025
Autori: Xinyu Chen, Yunxin Li, Haoyuan Shi, Baotian Hu, Wenhan Luo, Yaowei Wang, Min Zhang
cs.AI

Abstract

Valutare le capacità di comprensione video dei sistemi AI multimodali può misurare efficacemente le loro abilità di comprensione e ragionamento. La maggior parte dei benchmark di valutazione video è limitata a una singola lingua, tipicamente l'inglese, e presenta prevalentemente video radicati in contesti culturali occidentali. In questo articolo, presentiamo VideoVista-CulturalLingo, il primo benchmark di valutazione video progettato per colmare il divario culturale, linguistico e di dominio nella comprensione video. Il nostro lavoro si differenzia dai benchmark esistenti nei seguenti modi: 1) Diversità culturale, incorporando culture provenienti da Cina, Nord America ed Europa; 2) Multilinguismo, con domande presentate in cinese e inglese, due delle lingue più parlate al mondo; e 3) Ampio dominio, con video provenienti da centinaia di domini creati dall'uomo. VideoVista-CulturalLingo contiene 1.389 video e 3.134 coppie di domande e risposte, e abbiamo valutato 24 recenti modelli video open-source o proprietari di grandi dimensioni. Dai risultati degli esperimenti, osserviamo che: 1) I modelli esistenti performano peggio sulle domande centrate sulla Cina rispetto a quelle centrate sull'Occidente, in particolare quelle relative alla storia cinese; 2) I modelli open-source attuali mostrano ancora limitazioni nella comprensione temporale, specialmente nel compito di Localizzazione degli Eventi, raggiungendo un punteggio massimo di solo il 45,2%; 3) I modelli mainstream dimostrano una forte performance nelle domande scientifiche generali, mentre i modelli open-source mostrano una performance debole in matematica.
English
Assessing the video comprehension capabilities of multimodal AI systems can effectively measure their understanding and reasoning abilities. Most video evaluation benchmarks are limited to a single language, typically English, and predominantly feature videos rooted in Western cultural contexts. In this paper, we present VideoVista-CulturalLingo, the first video evaluation benchmark designed to bridge cultural, linguistic, and domain divide in video comprehension. Our work differs from existing benchmarks in the following ways: 1) Cultural diversity, incorporating cultures from China, North America, and Europe; 2) Multi-linguistics, with questions presented in Chinese and English-two of the most widely spoken languages; and 3) Broad domain, featuring videos sourced from hundreds of human-created domains. VideoVista-CulturalLingo contains 1,389 videos and 3,134 QA pairs, and we have evaluated 24 recent open-source or proprietary video large models. From the experiment results, we observe that: 1) Existing models perform worse on Chinese-centric questions than Western-centric ones, particularly those related to Chinese history; 2) Current open-source models still exhibit limitations in temporal understanding, especially in the Event Localization task, achieving a maximum score of only 45.2%; 3) Mainstream models demonstrate strong performance in general scientific questions, while open-source models demonstrate weak performance in mathematics.

Summary

AI-Generated Summary

PDF212April 28, 2025