ChatPaper.aiChatPaper

VideoVista-CulturalLingo: Horizontes de 360° - Conectando Culturas, Idiomas e Domínios na Compreensão de Vídeos

VideoVista-CulturalLingo: 360^circ Horizons-Bridging Cultures, Languages, and Domains in Video Comprehension

April 23, 2025
Autores: Xinyu Chen, Yunxin Li, Haoyuan Shi, Baotian Hu, Wenhan Luo, Yaowei Wang, Min Zhang
cs.AI

Resumo

Avaliar as capacidades de compreensão de vídeo dos sistemas de IA multimodal pode medir efetivamente suas habilidades de entendimento e raciocínio. A maioria dos benchmarks de avaliação de vídeo é limitada a um único idioma, tipicamente o inglês, e predominantemente apresenta vídeos enraizados em contextos culturais ocidentais. Neste artigo, apresentamos o VideoVista-CulturalLingo, o primeiro benchmark de avaliação de vídeo projetado para superar as divisões culturais, linguísticas e de domínio na compreensão de vídeo. Nosso trabalho difere dos benchmarks existentes das seguintes maneiras: 1) Diversidade cultural, incorporando culturas da China, América do Norte e Europa; 2) Multilinguismo, com perguntas apresentadas em chinês e inglês — dois dos idiomas mais falados; e 3) Amplo domínio, com vídeos provenientes de centenas de domínios criados por humanos. O VideoVista-CulturalLingo contém 1.389 vídeos e 3.134 pares de perguntas e respostas, e avaliamos 24 modelos grandes de vídeo recentes, de código aberto ou proprietários. A partir dos resultados dos experimentos, observamos que: 1) Os modelos existentes têm desempenho pior em perguntas centradas na cultura chinesa em comparação com as centradas na cultura ocidental, especialmente aquelas relacionadas à história chinesa; 2) Os modelos de código aberto atuais ainda apresentam limitações no entendimento temporal, particularmente na tarefa de Localização de Eventos, alcançando uma pontuação máxima de apenas 45,2%; 3) Os modelos principais demonstram um forte desempenho em perguntas científicas gerais, enquanto os modelos de código aberto apresentam desempenho fraco em matemática.
English
Assessing the video comprehension capabilities of multimodal AI systems can effectively measure their understanding and reasoning abilities. Most video evaluation benchmarks are limited to a single language, typically English, and predominantly feature videos rooted in Western cultural contexts. In this paper, we present VideoVista-CulturalLingo, the first video evaluation benchmark designed to bridge cultural, linguistic, and domain divide in video comprehension. Our work differs from existing benchmarks in the following ways: 1) Cultural diversity, incorporating cultures from China, North America, and Europe; 2) Multi-linguistics, with questions presented in Chinese and English-two of the most widely spoken languages; and 3) Broad domain, featuring videos sourced from hundreds of human-created domains. VideoVista-CulturalLingo contains 1,389 videos and 3,134 QA pairs, and we have evaluated 24 recent open-source or proprietary video large models. From the experiment results, we observe that: 1) Existing models perform worse on Chinese-centric questions than Western-centric ones, particularly those related to Chinese history; 2) Current open-source models still exhibit limitations in temporal understanding, especially in the Event Localization task, achieving a maximum score of only 45.2%; 3) Mainstream models demonstrate strong performance in general scientific questions, while open-source models demonstrate weak performance in mathematics.

Summary

AI-Generated Summary

PDF212April 28, 2025