ChatPaper.aiChatPaper

AVMeme Exam : Un Benchmark Multimodal, Multilingue et Multiculturel pour Évaluer les Connaissances Contextuelles, Culturelles et la Capacité de Raisonnement des LLMs

AVMeme Exam: A Multimodal Multilingual Multicultural Benchmark for LLMs' Contextual and Cultural Knowledge and Thinking

January 25, 2026
papers.authors: Xilin Jiang, Qiaolin Wang, Junkai Wu, Xiaomin He, Zhongweiyang Xu, Yinghao Ma, Minshuo Piao, Kaiyi Yang, Xiuwen Zheng, Riki Shimizu, Yicong Chen, Arsalan Firoozi, Gavin Mischler, Sukru Samet Dindar, Richard Antonello, Linyang He, Tsun-An Hsieh, Xulin Fan, Yulun Wu, Yuesheng Ma, Chaitanya Amballa, Weixiong Chen, Jiarui Hai, Ruisi Li, Vishal Choudhari, Cong Han, Yinghao Aaron Li, Adeen Flinker, Mounya Elhilali, Emmanouil Benetos, Mark Hasegawa-Johnson, Romit Roy Choudhury, Nima Mesgarani
cs.AI

papers.abstract

Les clips audio-visuels sur Internet transmettent du sens par le biais de sons et de mouvements variant dans le temps, ce qui va au-delà de ce que le texte seul peut représenter. Pour examiner si les modèles d'IA peuvent comprendre de tels signaux dans des contextes culturels humains, nous présentons AVMeme Exam, un benchmark organisé manuellement comprenant plus d'un millier de sons et vidéos emblématiques d'Internet, couvrant la parole, les chansons, la musique et les effets sonores. Chaque mème est associé à une question-réponse unique évaluant les niveaux de compréhension, du contenu de surface au contexte, de l'émotion à l'usage et aux connaissances générales, ainsi que des métadonnées telles que l'année d'origine, la transcription, le résumé et la sensibilité. Nous évaluons systématiquement les modèles de langage de grande taille multimodaux (MLLM) les plus avancés ainsi que des participants humains à l'aide de ce benchmark. Nos résultats révèlent une limitation constante : les modèles actuels obtiennent de mauvais résultats sur la musique sans texte et les effets sonores, et peinent à raisonner en contexte et en culture par rapport au contenu de surface. Ces résultats mettent en évidence un écart important dans l'intelligence multimodale alignée sur l'humain et appellent à des modèles capables de percevoir de manière contextuelle et culturelle au-delà de la surface de ce qu'ils entendent et voient. Page du projet : avmemeexam.github.io/public
English
Internet audio-visual clips convey meaning through time-varying sound and motion, which extend beyond what text alone can represent. To examine whether AI models can understand such signals in human cultural contexts, we introduce AVMeme Exam, a human-curated benchmark of over one thousand iconic Internet sounds and videos spanning speech, songs, music, and sound effects. Each meme is paired with a unique Q&A assessing levels of understanding from surface content to context and emotion to usage and world knowledge, along with metadata such as original year, transcript, summary, and sensitivity. We systematically evaluate state-of-the-art multimodal large language models (MLLMs) alongside human participants using this benchmark. Our results reveal a consistent limitation: current models perform poorly on textless music and sound effects, and struggle to think in context and in culture compared to surface content. These findings highlight a key gap in human-aligned multimodal intelligence and call for models that can perceive contextually and culturally beyond the surface of what they hear and see. Project page: avmemeexam.github.io/public
PDF192January 29, 2026