AVMeme Examen: Een Multimodaal Meertalig Multicultureel Benchmark voor het Contextuele en Culturele Kennis- en Denkvermogen van LLM's

Samenvatting

Internet-audiovisuele fragmenten brengen betekenis over via tijdvariërend geluid en beweging, wat verder reikt dan wat tekst alleen kan weergeven. Om te onderzoeken of AI-modellen dergelijke signalen in menselijke culturele contexten kunnen begrijpen, introduceren we AVMeme Exam, een door mensen samengestelde benchmark van meer dan duizend iconische internetgeluiden en video's, variërend van spraak en liedjes tot muziek en geluidseffecten. Elke meme is gekoppeld aan een unieke vraag-en-antwoordset die verschillende begripsniveaus toetst, van oppervlakkige inhoud tot context en emotie, en van gebruik tot wereldkennis, samen met metadata zoals het oorspronkelijke jaar, transcript, samenvatting en gevoeligheid. We evalueren systematisch state-of-the-art multimodale grote taalmodellen (MLLM's) naast menselijke deelnemers met behulp van deze benchmark. Onze resultaten tonen een consistente beperking aan: huidige modellen presteren slecht op tekstloze muziek en geluidseffecten, en hebben moeite om contextueel en cultureel te denken in vergelijking met oppervlakkige inhoud. Deze bevindingen belichten een cruciaal hiaat in mensgericht multimodaal intelligentie en pleiten voor modellen die contextueel en cultureel verder kunnen waarnemen dan alleen het oppervlak van wat ze horen en zien. Projectpagina: avmemeexam.github.io/public

English

Internet audio-visual clips convey meaning through time-varying sound and motion, which extend beyond what text alone can represent. To examine whether AI models can understand such signals in human cultural contexts, we introduce AVMeme Exam, a human-curated benchmark of over one thousand iconic Internet sounds and videos spanning speech, songs, music, and sound effects. Each meme is paired with a unique Q&A assessing levels of understanding from surface content to context and emotion to usage and world knowledge, along with metadata such as original year, transcript, summary, and sensitivity. We systematically evaluate state-of-the-art multimodal large language models (MLLMs) alongside human participants using this benchmark. Our results reveal a consistent limitation: current models perform poorly on textless music and sound effects, and struggle to think in context and in culture compared to surface content. These findings highlight a key gap in human-aligned multimodal intelligence and call for models that can perceive contextually and culturally beyond the surface of what they hear and see. Project page: avmemeexam.github.io/public

AVMeme Examen: Een Multimodaal Meertalig Multicultureel Benchmark voor het Contextuele en Culturele Kennis- en Denkvermogen van LLM's

AVMeme Exam: A Multimodal Multilingual Multicultural Benchmark for LLMs' Contextual and Cultural Knowledge and Thinking

Samenvatting

Support