ChatPaper.aiChatPaper

AVMeme Exam: Мультимодальное, мультиязычное и мультикультурное тестирование для оценки контекстуальных, культурных знаний и мышления больших языковых моделей

AVMeme Exam: A Multimodal Multilingual Multicultural Benchmark for LLMs' Contextual and Cultural Knowledge and Thinking

January 25, 2026
Авторы: Xilin Jiang, Qiaolin Wang, Junkai Wu, Xiaomin He, Zhongweiyang Xu, Yinghao Ma, Minshuo Piao, Kaiyi Yang, Xiuwen Zheng, Riki Shimizu, Yicong Chen, Arsalan Firoozi, Gavin Mischler, Sukru Samet Dindar, Richard Antonello, Linyang He, Tsun-An Hsieh, Xulin Fan, Yulun Wu, Yuesheng Ma, Chaitanya Amballa, Weixiong Chen, Jiarui Hai, Ruisi Li, Vishal Choudhari, Cong Han, Yinghao Aaron Li, Adeen Flinker, Mounya Elhilali, Emmanouil Benetos, Mark Hasegawa-Johnson, Romit Roy Choudhury, Nima Mesgarani
cs.AI

Аннотация

Интернет-аудиовизуальные клипы передают смысл через изменяющиеся во времени звуки и движение, что выходит за рамки возможностей текстового представления. Чтобы исследовать, способны ли ИИ-модели понимать такие сигналы в контексте человеческой культуры, мы представляем AVMeme Exam — курируемый человеком бенчмарк, содержащий более тысячи знаковых интернет-звуков и видео, включающих речь, песни, музыку и звуковые эффекты. Каждый мем снабжен уникальными вопросами и ответами, оценивающими уровни понимания — от поверхностного содержания до контекста, от эмоций до использования и фоновых знаний, а также метаданными, такими как год создания, транскрипт, краткое описание и маркеры чувствительности. Мы систематически оцениваем передовые мультимодальные большие языковые модели (MLLM) вместе с участниками-людьми, используя данный бенчмарк. Наши результаты выявляют устойчивое ограничение: современные модели демонстрируют низкие результаты в заданиях с безтекстовой музыкой и звуковыми эффектами, а также испытывают трудности с контекстным и культурным мышлением по сравнению с анализом поверхностного содержания. Эти выводы указывают на ключевой пробел в человеко-ориентированном мультимодальном интеллекте и подчеркивают необходимость создания моделей, способных воспринимать информацию контекстуально и культурно, выходя за рамки поверхностного восприятия того, что они слышат и видят. Страница проекта: avmemeexam.github.io/public
English
Internet audio-visual clips convey meaning through time-varying sound and motion, which extend beyond what text alone can represent. To examine whether AI models can understand such signals in human cultural contexts, we introduce AVMeme Exam, a human-curated benchmark of over one thousand iconic Internet sounds and videos spanning speech, songs, music, and sound effects. Each meme is paired with a unique Q&A assessing levels of understanding from surface content to context and emotion to usage and world knowledge, along with metadata such as original year, transcript, summary, and sensitivity. We systematically evaluate state-of-the-art multimodal large language models (MLLMs) alongside human participants using this benchmark. Our results reveal a consistent limitation: current models perform poorly on textless music and sound effects, and struggle to think in context and in culture compared to surface content. These findings highlight a key gap in human-aligned multimodal intelligence and call for models that can perceive contextually and culturally beyond the surface of what they hear and see. Project page: avmemeexam.github.io/public
PDF192January 29, 2026