ChatPaper.aiChatPaper

VideoVista-CulturalLingo: 360도 지평선 - 비디오 이해에서 문화, 언어, 그리고 도메인 간의 연결

VideoVista-CulturalLingo: 360^circ Horizons-Bridging Cultures, Languages, and Domains in Video Comprehension

April 23, 2025
저자: Xinyu Chen, Yunxin Li, Haoyuan Shi, Baotian Hu, Wenhan Luo, Yaowei Wang, Min Zhang
cs.AI

초록

다중모달 AI 시스템의 비디오 이해 능력을 평가하는 것은 해당 시스템의 이해와 추론 능력을 효과적으로 측정할 수 있는 방법입니다. 대부분의 비디오 평가 벤치마크는 단일 언어, 주로 영어로 제한되어 있으며, 서양 문화적 배경에 기반한 비디오가 주를 이루고 있습니다. 본 논문에서는 비디오 이해에서 문화적, 언어적, 도메인 간 격차를 해소하기 위해 설계된 최초의 비디오 평가 벤치마크인 VideoVista-CulturalLingo를 소개합니다. 우리의 작업은 기존 벤치마크와 다음과 같은 점에서 차별화됩니다: 1) 중국, 북미, 유럽의 문화적 다양성을 포함; 2) 중국어와 영어라는 두 가지 가장 널리 사용되는 언어로 질문을 제공; 3) 수백 개의 인간이 만든 도메인에서 추출한 비디오를 포함하는 광범위한 도메인. VideoVista-CulturalLingo는 1,389개의 비디오와 3,134개의 질문-답변 쌍을 포함하며, 최근의 24개 오픈소스 또는 상용 비디오 대형 모델을 평가했습니다. 실험 결과를 통해 다음과 같은 관찰을 얻었습니다: 1) 기존 모델들은 중국 중심 질문, 특히 중국 역사와 관련된 질문에서 서양 중심 질문보다 더 낮은 성능을 보임; 2) 현재의 오픈소스 모델들은 시간적 이해, 특히 이벤트 위치 파악 작업에서 여전히 한계를 보이며, 최대 점수가 45.2%에 그침; 3) 주류 모델들은 일반 과학 질문에서 강력한 성능을 보이는 반면, 오픈소스 모델들은 수학 관련 질문에서 약한 성능을 보임.
English
Assessing the video comprehension capabilities of multimodal AI systems can effectively measure their understanding and reasoning abilities. Most video evaluation benchmarks are limited to a single language, typically English, and predominantly feature videos rooted in Western cultural contexts. In this paper, we present VideoVista-CulturalLingo, the first video evaluation benchmark designed to bridge cultural, linguistic, and domain divide in video comprehension. Our work differs from existing benchmarks in the following ways: 1) Cultural diversity, incorporating cultures from China, North America, and Europe; 2) Multi-linguistics, with questions presented in Chinese and English-two of the most widely spoken languages; and 3) Broad domain, featuring videos sourced from hundreds of human-created domains. VideoVista-CulturalLingo contains 1,389 videos and 3,134 QA pairs, and we have evaluated 24 recent open-source or proprietary video large models. From the experiment results, we observe that: 1) Existing models perform worse on Chinese-centric questions than Western-centric ones, particularly those related to Chinese history; 2) Current open-source models still exhibit limitations in temporal understanding, especially in the Event Localization task, achieving a maximum score of only 45.2%; 3) Mainstream models demonstrate strong performance in general scientific questions, while open-source models demonstrate weak performance in mathematics.

Summary

AI-Generated Summary

PDF212April 28, 2025