ChatPaper.aiChatPaper

VideoVista-CulturalLingo: 360° Горизонты — Сближение культур, языков и областей в понимании видео

VideoVista-CulturalLingo: 360^circ Horizons-Bridging Cultures, Languages, and Domains in Video Comprehension

April 23, 2025
Авторы: Xinyu Chen, Yunxin Li, Haoyuan Shi, Baotian Hu, Wenhan Luo, Yaowei Wang, Min Zhang
cs.AI

Аннотация

Оценка способностей мультимодальных ИИ-систем к пониманию видео может эффективно измерять их способности к пониманию и рассуждению. Большинство бенчмарков для оценки видео ограничены одним языком, обычно английским, и преимущественно включают видео, основанные на западных культурных контекстах. В данной статье мы представляем VideoVista-CulturalLingo — первый бенчмарк для оценки видео, разработанный для преодоления культурного, языкового и предметного разрыва в понимании видео. Наша работа отличается от существующих бенчмарков следующими аспектами: 1) Культурное разнообразие, включающее культуры Китая, Северной Америки и Европы; 2) Многоязычность, с вопросами, представленными на китайском и английском — двух наиболее распространённых языках; и 3) Широкий охват предметных областей, включающий видео из сотен созданных человеком доменов. VideoVista-CulturalLingo содержит 1 389 видео и 3 134 пары вопросов и ответов, и мы оценили 24 недавние открытые или проприетарные крупные модели для работы с видео. По результатам экспериментов мы наблюдаем следующее: 1) Существующие модели показывают худшие результаты на вопросах, связанных с китайской культурой, по сравнению с западными, особенно в вопросах, касающихся китайской истории; 2) Текущие открытые модели всё ещё демонстрируют ограничения в понимании временных аспектов, особенно в задаче локализации событий, достигая максимального результата всего в 45,2%; 3) Основные модели показывают сильные результаты в общих научных вопросах, в то время как открытые модели демонстрируют слабые результаты в математике.
English
Assessing the video comprehension capabilities of multimodal AI systems can effectively measure their understanding and reasoning abilities. Most video evaluation benchmarks are limited to a single language, typically English, and predominantly feature videos rooted in Western cultural contexts. In this paper, we present VideoVista-CulturalLingo, the first video evaluation benchmark designed to bridge cultural, linguistic, and domain divide in video comprehension. Our work differs from existing benchmarks in the following ways: 1) Cultural diversity, incorporating cultures from China, North America, and Europe; 2) Multi-linguistics, with questions presented in Chinese and English-two of the most widely spoken languages; and 3) Broad domain, featuring videos sourced from hundreds of human-created domains. VideoVista-CulturalLingo contains 1,389 videos and 3,134 QA pairs, and we have evaluated 24 recent open-source or proprietary video large models. From the experiment results, we observe that: 1) Existing models perform worse on Chinese-centric questions than Western-centric ones, particularly those related to Chinese history; 2) Current open-source models still exhibit limitations in temporal understanding, especially in the Event Localization task, achieving a maximum score of only 45.2%; 3) Mainstream models demonstrate strong performance in general scientific questions, while open-source models demonstrate weak performance in mathematics.

Summary

AI-Generated Summary

PDF212April 28, 2025