ChatPaper.aiChatPaper

AVMeme 시험: LLM의 맥락적·문화적 지식 및 사고 능력을 평가하는 다중 모드 다중 언어 다중 문화 벤치마크

AVMeme Exam: A Multimodal Multilingual Multicultural Benchmark for LLMs' Contextual and Cultural Knowledge and Thinking

January 25, 2026
저자: Xilin Jiang, Qiaolin Wang, Junkai Wu, Xiaomin He, Zhongweiyang Xu, Yinghao Ma, Minshuo Piao, Kaiyi Yang, Xiuwen Zheng, Riki Shimizu, Yicong Chen, Arsalan Firoozi, Gavin Mischler, Sukru Samet Dindar, Richard Antonello, Linyang He, Tsun-An Hsieh, Xulin Fan, Yulun Wu, Yuesheng Ma, Chaitanya Amballa, Weixiong Chen, Jiarui Hai, Ruisi Li, Vishal Choudhari, Cong Han, Yinghao Aaron Li, Adeen Flinker, Mounya Elhilali, Emmanouil Benetos, Mark Hasegawa-Johnson, Romit Roy Choudhury, Nima Mesgarani
cs.AI

초록

인터넷 오디오-비주얼 클립은 시간에 따라 변화하는 소리와 동작을 통해 의미를 전달하며, 이는 텍스트만으로는 표현할 수 없는 영역을 포괄합니다. AI 모델이 인간의 문화적 맥락에서 이러한 신호를 이해할 수 있는지 검증하기 위해 우리는 AVMeme Exam을 소개합니다. 이는 1,000개 이상의 대표적인 인터넷 사운드 및 비디오(음성, 노래, 음악, 음향 효과 포함)로 구성된 인간이 직접 선별한 벤치마크입니다. 각 밈은 표면적 내용부터 맥락과 감정, 사용법 및 세계 지식에 이르기까지 이해 수준을 평가하는 고유한 질문-답변 쌍과 함께 원본 연도, 대본, 요약, 민감도 등의 메타데이터와 짝을 이룹니다. 우리는 이 벤치마크를 사용하여 최첨단 멀티모달 대규모 언어 모델(MLLM)과 인간 참가자를 체계적으로 평가했습니다. 그 결과 일관된 한계가 드러났습니다: 현재 모델들은 텍스트가 없는 음악과 음향 효과에서 성능이 낮았으며, 표면적 내용에 비해 맥락적·문화적 사고에 어려움을 겪었습니다. 이러한 발견은 인간 중심 멀티모달 지능의 핵심 격차를 부각시키며, 단순히 보고 듣는 것을 넘어 맥락적·문화적으로 인지할 수 있는 모델의 필요성을 촉구합니다. 프로젝트 페이지: avmemeexam.github.io/public
English
Internet audio-visual clips convey meaning through time-varying sound and motion, which extend beyond what text alone can represent. To examine whether AI models can understand such signals in human cultural contexts, we introduce AVMeme Exam, a human-curated benchmark of over one thousand iconic Internet sounds and videos spanning speech, songs, music, and sound effects. Each meme is paired with a unique Q&A assessing levels of understanding from surface content to context and emotion to usage and world knowledge, along with metadata such as original year, transcript, summary, and sensitivity. We systematically evaluate state-of-the-art multimodal large language models (MLLMs) alongside human participants using this benchmark. Our results reveal a consistent limitation: current models perform poorly on textless music and sound effects, and struggle to think in context and in culture compared to surface content. These findings highlight a key gap in human-aligned multimodal intelligence and call for models that can perceive contextually and culturally beyond the surface of what they hear and see. Project page: avmemeexam.github.io/public
PDF192January 29, 2026