ChatPaper.aiChatPaper

VideoVista-CulturalLingo: 360度の視野 - ビデオ理解における文化、言語、領域を結ぶ架け橋

VideoVista-CulturalLingo: 360^circ Horizons-Bridging Cultures, Languages, and Domains in Video Comprehension

April 23, 2025
著者: Xinyu Chen, Yunxin Li, Haoyuan Shi, Baotian Hu, Wenhan Luo, Yaowei Wang, Min Zhang
cs.AI

要旨

マルチモーダルAIシステムの動画理解能力を評価することは、その理解力と推論能力を効果的に測定する方法です。既存の動画評価ベンチマークの多くは、単一言語(通常は英語)に限定されており、西洋文化に根ざした動画が主流となっています。本論文では、動画理解における文化的・言語的・領域的隔たりを埋めることを目的とした初の評価ベンチマーク「VideoVista-CulturalLingo」を提案します。我々の研究は既存のベンチマークと以下の点で異なります:1)文化的多様性:中国、北米、ヨーロッパの文化を取り入れている;2)多言語性:中国語と英語という最も広く話されている2つの言語で質問を提示;3)広範な領域:数百の人間が作成した領域から動画を収集。VideoVista-CulturalLingoは1,389本の動画と3,134組のQAペアを含み、24の最近のオープンソースまたはプロプライエタリな大規模動画モデルを評価しました。実験結果から以下の観察を得ました:1)既存モデルは、西洋中心の質問よりも中国中心の質問、特に中国史に関連する質問で性能が劣る;2)現在のオープンソースモデルは、特にイベント位置特定タスクにおいて時間的理解に限界があり、最高スコアは45.2%にとどまる;3)主流モデルは一般的な科学的質問で強い性能を示す一方、オープンソースモデルは数学分野で弱い性能を示す。
English
Assessing the video comprehension capabilities of multimodal AI systems can effectively measure their understanding and reasoning abilities. Most video evaluation benchmarks are limited to a single language, typically English, and predominantly feature videos rooted in Western cultural contexts. In this paper, we present VideoVista-CulturalLingo, the first video evaluation benchmark designed to bridge cultural, linguistic, and domain divide in video comprehension. Our work differs from existing benchmarks in the following ways: 1) Cultural diversity, incorporating cultures from China, North America, and Europe; 2) Multi-linguistics, with questions presented in Chinese and English-two of the most widely spoken languages; and 3) Broad domain, featuring videos sourced from hundreds of human-created domains. VideoVista-CulturalLingo contains 1,389 videos and 3,134 QA pairs, and we have evaluated 24 recent open-source or proprietary video large models. From the experiment results, we observe that: 1) Existing models perform worse on Chinese-centric questions than Western-centric ones, particularly those related to Chinese history; 2) Current open-source models still exhibit limitations in temporal understanding, especially in the Event Localization task, achieving a maximum score of only 45.2%; 3) Mainstream models demonstrate strong performance in general scientific questions, while open-source models demonstrate weak performance in mathematics.

Summary

AI-Generated Summary

PDF212April 28, 2025