フレームの中の世界:視覚言語モデルにおける新たな課題としての文化混合の理解
World in a Frame: Understanding Culture Mixing as a New Challenge for Vision-Language Models
November 27, 2025
著者: Eunsu Kim, Junyeong Park, Na Min An, Junseong Kim, Hitesh Laxmichand Patel, Jiho Jin, Julia Kruk, Amit Agarwal, Srikant Panda, Fenal Ashokbhai Ilasariya, Hyunjung Shim, Alice Oh
cs.AI
要旨
グローバル化が進んだ現代社会では、多様な起源を持つ文化的要素が単一の視覚的場面に頻繁に共存している。我々はこれを文化混合シナリオと呼ぶが、大規模視覚言語モデル(LVLM)がこれらのシナリオをどのように認識するかは未解明のままである。本研究では、複数地域の文化的アイテムが同時に出現する際のLVLMの挙動を、文化混合という重要な課題として検証する。これらの挙動を体系的に分析するため、拡散モデルで生成され人間によって検証された23,000枚の文化混合画像からなる食品視覚質問応答(VQA)ベンチマーク「CultureMix」を構築した。これは4つのサブタスク:(1)食品単体、(2)食品+食品、(3)食品+背景、(4)食品+食品+背景で構成される。10種類のLVLMを評価した結果、混合環境において個々の文化的アイデンティティを維持する能力に一貫した欠陥が認められた。モデルは背景への強い依存性を示し、食品単体のベースラインに文化的背景が追加されると精度が14%低下。さらに同一の食品に対しても文脈が異なると一貫性のない予測を行うことが明らかになった。これらの課題に対処するため、3つの頑健性向上戦略を検証したところ、多様な文化混合データセットを用いた教師ありファインチューニングがモデルの一貫性を大幅に改善し、背景への感度を低減できることが判明した。文化的に多様な実世界環境で確実に動作するLVLMの開発に向け、文化混合シナリオへの積極的な注目が不可欠であると訴求する。
English
In a globalized world, cultural elements from diverse origins frequently appear together within a single visual scene. We refer to these as culture mixing scenarios, yet how Large Vision-Language Models (LVLMs) perceive them remains underexplored. We investigate culture mixing as a critical challenge for LVLMs and examine how current models behave when cultural items from multiple regions appear together. To systematically analyze these behaviors, we construct CultureMix, a food Visual Question Answering (VQA) benchmark with 23k diffusion-generated, human-verified culture mixing images across four subtasks: (1) food-only, (2) food+food, (3) food+background, and (4) food+food+background. Evaluating 10 LVLMs, we find consistent failures to preserve individual cultural identities in mixed settings. Models show strong background reliance, with accuracy dropping 14% when cultural backgrounds are added to food-only baselines, and they produce inconsistent predictions for identical foods across different contexts. To address these limitations, we explore three robustness strategies. We find supervised fine-tuning using a diverse culture mixing dataset substantially improve model consistency and reduce background sensitivity. We call for increased attention to culture mixing scenarios as a critical step toward developing LVLMs capable of operating reliably in culturally diverse real-world environments.