AVMeme-Exam: Ein multimodaler, multilingualer und multikultureller Benchmark für kontextuelles und kulturelles Wissen sowie Denkfähigkeiten von LLMs
AVMeme Exam: A Multimodal Multilingual Multicultural Benchmark for LLMs' Contextual and Cultural Knowledge and Thinking
January 25, 2026
papers.authors: Xilin Jiang, Qiaolin Wang, Junkai Wu, Xiaomin He, Zhongweiyang Xu, Yinghao Ma, Minshuo Piao, Kaiyi Yang, Xiuwen Zheng, Riki Shimizu, Yicong Chen, Arsalan Firoozi, Gavin Mischler, Sukru Samet Dindar, Richard Antonello, Linyang He, Tsun-An Hsieh, Xulin Fan, Yulun Wu, Yuesheng Ma, Chaitanya Amballa, Weixiong Chen, Jiarui Hai, Ruisi Li, Vishal Choudhari, Cong Han, Yinghao Aaron Li, Adeen Flinker, Mounya Elhilali, Emmanouil Benetos, Mark Hasegawa-Johnson, Romit Roy Choudhury, Nima Mesgarani
cs.AI
papers.abstract
Internet-Audioclips vermitteln Bedeutung durch zeitlich variierende Klänge und Bewegungen, die über das hinausgehen, was Text allein darstellen kann. Um zu untersuchen, ob KI-Modelle solche Signale in menschlichen kulturellen Kontexten verstehen können, stellen wir AVMeme Exam vor – einen kuratierten Benchmark mit über tausend ikonischen Internetklängen und -videos, die Sprache, Gesang, Musik und Soundeffekte umfassen. Jedes Meme ist mit einer einzigartigen Frage-Antwort-Paarung versehen, die Verständnisebenen von der Oberflächeninhalts- bis zur Kontext- und Emotionsebene sowie Nutzungs- und Weltwissen abprüft, ergänzt durch Metadaten wie Ursprungsjahr, Transkript, Zusammenfassung und Sensitivität. Wir evaluieren systematisch state-of-the-art multimodale Large Language Models (MLLMs) zusammen mit menschlichen Teilnehmern anhand dieses Benchmarks. Unsere Ergebnisse zeigen eine konsistente Schwäche: Aktuelle Modelle schneiden bei textloser Musik und Soundeffekten schlecht ab und haben Schwierigkeiten, kontextuell und kulturell zu denken, verglichen mit dem Verständnis von Oberflächeninhalten. Diese Erkenntnisse verdeutlichen eine entscheidende Lücke in menschlich ausgerichteter multimodaler Intelligenz und fordern Modelle, die kontextuell und kulturell über das Gehörte und Gesehene hinaus wahrnehmen können. Projektseite: avmemeexam.github.io/public
English
Internet audio-visual clips convey meaning through time-varying sound and motion, which extend beyond what text alone can represent. To examine whether AI models can understand such signals in human cultural contexts, we introduce AVMeme Exam, a human-curated benchmark of over one thousand iconic Internet sounds and videos spanning speech, songs, music, and sound effects. Each meme is paired with a unique Q&A assessing levels of understanding from surface content to context and emotion to usage and world knowledge, along with metadata such as original year, transcript, summary, and sensitivity. We systematically evaluate state-of-the-art multimodal large language models (MLLMs) alongside human participants using this benchmark. Our results reveal a consistent limitation: current models perform poorly on textless music and sound effects, and struggle to think in context and in culture compared to surface content. These findings highlight a key gap in human-aligned multimodal intelligence and call for models that can perceive contextually and culturally beyond the surface of what they hear and see. Project page: avmemeexam.github.io/public