ChatPaper.aiChatPaper

AVMeme試験: LLMの文脈的・文化的知識および思考力を評価するマルチモーダル・マルチリンガル・マルチカルチャー基準

AVMeme Exam: A Multimodal Multilingual Multicultural Benchmark for LLMs' Contextual and Cultural Knowledge and Thinking

January 25, 2026
著者: Xilin Jiang, Qiaolin Wang, Junkai Wu, Xiaomin He, Zhongweiyang Xu, Yinghao Ma, Minshuo Piao, Kaiyi Yang, Xiuwen Zheng, Riki Shimizu, Yicong Chen, Arsalan Firoozi, Gavin Mischler, Sukru Samet Dindar, Richard Antonello, Linyang He, Tsun-An Hsieh, Xulin Fan, Yulun Wu, Yuesheng Ma, Chaitanya Amballa, Weixiong Chen, Jiarui Hai, Ruisi Li, Vishal Choudhari, Cong Han, Yinghao Aaron Li, Adeen Flinker, Mounya Elhilali, Emmanouil Benetos, Mark Hasegawa-Johnson, Romit Roy Choudhury, Nima Mesgarani
cs.AI

要旨

インターネット上の音声・映像クリップは、時間とともに変化する音と動きを通じて意味を伝達し、テキスト単独では表現しきれない情報を含んでいます。AIモデルがこうした信号を人間の文化的文脈で理解できるか検証するため、私たちはAVMeme Examを開発しました。これは人間が厳選した、音声・歌曲・音楽・効果音など1,000以上に及ぶ代表的なインターネットミームのベンチマークです。各ミームには、表面的な内容から文脈や感情、使用法や世界知識に至るまでの理解度を測る独自のQ&A、さらに公開年・文字起こし・要約・機微性などのメタデータが付属しています。本ベンチマークを用いて、最先端のマルチモーダル大規模言語モデル(MLLM)と人間参加者を体系的に評価しました。結果が示す一貫した課題は、現行モデルが歌詞のない音楽や効果音で著しく低い性能を示し、表面的な内容と比べて文脈や文化的背景を踏まえた思考が困難だということです。これらの発見は、人間に寄り添うマルチモーダル知能における重大な隔たりを浮き彫りにし、単なる聴覚・視覚的な表面を超えて、文脈的・文化的に知覚できるモデルの必要性を訴えるものです。プロジェクトページ: avmemeexam.github.io/public
English
Internet audio-visual clips convey meaning through time-varying sound and motion, which extend beyond what text alone can represent. To examine whether AI models can understand such signals in human cultural contexts, we introduce AVMeme Exam, a human-curated benchmark of over one thousand iconic Internet sounds and videos spanning speech, songs, music, and sound effects. Each meme is paired with a unique Q&A assessing levels of understanding from surface content to context and emotion to usage and world knowledge, along with metadata such as original year, transcript, summary, and sensitivity. We systematically evaluate state-of-the-art multimodal large language models (MLLMs) alongside human participants using this benchmark. Our results reveal a consistent limitation: current models perform poorly on textless music and sound effects, and struggle to think in context and in culture compared to surface content. These findings highlight a key gap in human-aligned multimodal intelligence and call for models that can perceive contextually and culturally beyond the surface of what they hear and see. Project page: avmemeexam.github.io/public
PDF192January 29, 2026