AVMeme Exam: Un Benchmark Multimodale, Multilingue e Multiculturale per le Conoscenze Contestuali, Culturali e il Ragionamento dei Modelli Linguistici di Grande Dimensione

Abstract

I clip audio-visuali di Internet veicolano significati attraverso suoni e movimenti variabili nel tempo, che vanno oltre ciò che il solo testo può rappresentare. Per esaminare se i modelli di intelligenza artificiale possono comprendere tali segnali nei contesti culturali umani, introduciamo AVMeme Exam, un benchmark curato da esseri umani comprendente oltre mille suoni e video iconici di Internet, che spaziano da discorsi, canzoni, musica a effetti sonori. Ogni meme è associato a un unico set di domande e risposte che valuta i livelli di comprensione, dal contenuto superficiale al contesto, dall'emozione all'uso e alla conoscenza generale, insieme a metadati come l'anno originale, la trascrizione, il riassunto e la sensibilità. Valutiamo sistematicamente modelli linguistici multimodali all'avanguardia (MLLM) insieme a partecipanti umani utilizzando questo benchmark. I nostri risultati rivelano una limitazione costante: i modelli attuali performano scarsamente su musica ed effetti sonori privi di testo, e faticano a ragionare in modo contestuale e culturale rispetto al contenuto superficiale. Questi risultati evidenziano un divario cruciale nell'intelligenza multimodale allineata con le capacità umane e richiedono modelli in grado di percepire oltre la superficie di ciò che sentono e vedono, in modo contestuale e culturale. Pagina del progetto: avmemeexam.github.io/public

English

Internet audio-visual clips convey meaning through time-varying sound and motion, which extend beyond what text alone can represent. To examine whether AI models can understand such signals in human cultural contexts, we introduce AVMeme Exam, a human-curated benchmark of over one thousand iconic Internet sounds and videos spanning speech, songs, music, and sound effects. Each meme is paired with a unique Q&A assessing levels of understanding from surface content to context and emotion to usage and world knowledge, along with metadata such as original year, transcript, summary, and sensitivity. We systematically evaluate state-of-the-art multimodal large language models (MLLMs) alongside human participants using this benchmark. Our results reveal a consistent limitation: current models perform poorly on textless music and sound effects, and struggle to think in context and in culture compared to surface content. These findings highlight a key gap in human-aligned multimodal intelligence and call for models that can perceive contextually and culturally beyond the surface of what they hear and see. Project page: avmemeexam.github.io/public

AVMeme Exam: Un Benchmark Multimodale, Multilingue e Multiculturale per le Conoscenze Contestuali, Culturali e il Ragionamento dei Modelli Linguistici di Grande Dimensione

AVMeme Exam: A Multimodal Multilingual Multicultural Benchmark for LLMs' Contextual and Cultural Knowledge and Thinking

Abstract

Support