ChatPaper.aiChatPaper

AVMeme Exam: Un punto de referencia multimodal, multilingüe y multicultural para el conocimiento y pensamiento contextual y cultural de los LLM

AVMeme Exam: A Multimodal Multilingual Multicultural Benchmark for LLMs' Contextual and Cultural Knowledge and Thinking

January 25, 2026
Autores: Xilin Jiang, Qiaolin Wang, Junkai Wu, Xiaomin He, Zhongweiyang Xu, Yinghao Ma, Minshuo Piao, Kaiyi Yang, Xiuwen Zheng, Riki Shimizu, Yicong Chen, Arsalan Firoozi, Gavin Mischler, Sukru Samet Dindar, Richard Antonello, Linyang He, Tsun-An Hsieh, Xulin Fan, Yulun Wu, Yuesheng Ma, Chaitanya Amballa, Weixiong Chen, Jiarui Hai, Ruisi Li, Vishal Choudhari, Cong Han, Yinghao Aaron Li, Adeen Flinker, Mounya Elhilali, Emmanouil Benetos, Mark Hasegawa-Johnson, Romit Roy Choudhury, Nima Mesgarani
cs.AI

Resumen

Los clips audiovisuales de Internet transmiten significado a través de sonidos y movimientos que varían en el tiempo, lo que va más allá de lo que el texto por sí solo puede representar. Para examinar si los modelos de IA pueden comprender tales señales en contextos culturales humanos, presentamos AVMeme Exam, un punto de referencia curado por humanos que contiene más de mil sonidos y videos icónicos de Internet que abarcan discursos, canciones, música y efectos de sonido. Cada meme se empareja con una pregunta y respuesta única que evalúa niveles de comprensión, desde el contenido superficial hasta el contexto y la emoción, pasando por el uso y el conocimiento del mundo, junto con metadatos como el año original, la transcripción, el resumen y la sensibilidad. Evaluamos sistemáticamente los modelos de lenguaje grandes multimodales (MLLMs) más avanzados junto con participantes humanos utilizando este punto de referencia. Nuestros resultados revelan una limitación consistente: los modelos actuales tienen un rendimiento deficiente en música sin texto y efectos de sonido, y les cuesta pensar en contexto y en cultura en comparación con el contenido superficial. Estos hallazgos destacan una brecha clave en la inteligencia multimodal alineada con los humanos y exigen modelos que puedan percibir más allá de la superficie de lo que escuchan y ven, de manera contextual y cultural. Página del proyecto: avmemeexam.github.io/public
English
Internet audio-visual clips convey meaning through time-varying sound and motion, which extend beyond what text alone can represent. To examine whether AI models can understand such signals in human cultural contexts, we introduce AVMeme Exam, a human-curated benchmark of over one thousand iconic Internet sounds and videos spanning speech, songs, music, and sound effects. Each meme is paired with a unique Q&A assessing levels of understanding from surface content to context and emotion to usage and world knowledge, along with metadata such as original year, transcript, summary, and sensitivity. We systematically evaluate state-of-the-art multimodal large language models (MLLMs) alongside human participants using this benchmark. Our results reveal a consistent limitation: current models perform poorly on textless music and sound effects, and struggle to think in context and in culture compared to surface content. These findings highlight a key gap in human-aligned multimodal intelligence and call for models that can perceive contextually and culturally beyond the surface of what they hear and see. Project page: avmemeexam.github.io/public
PDF192January 29, 2026