프레임 속 세계: 시각-언어 모델의 새로운 도전으로서 문화 혼합 이해하기
World in a Frame: Understanding Culture Mixing as a New Challenge for Vision-Language Models
November 27, 2025
저자: Eunsu Kim, Junyeong Park, Na Min An, Junseong Kim, Hitesh Laxmichand Patel, Jiho Jin, Julia Kruk, Amit Agarwal, Srikant Panda, Fenal Ashokbhai Ilasariya, Hyunjung Shim, Alice Oh
cs.AI
초록
세계화된 현대 사회에서는 다양한 문화적 요소들이 단일 시각적 장면 안에서 빈번하게 공존합니다. 우리는 이를 문화 혼합 시나리오라고 부르지만, 대규모 시각-언어 모델(LVLM)이 이러한 상황을 어떻게 인지하는지는 아직 충분히 연구되지 않았습니다. 본 연구는 문화 혼합을 LVLM의 중요한 과제로 조명하고, 여러 지역의 문화적 항목이 함께 등장할 때 현재 모델들이 어떤 양상을 보이는지 검토합니다. 이러한 행동을 체계적으로 분석하기 위해 우리는 CultureMix를 구축했습니다. 이는 푸드 시각 질의응답(VQA) 벤치마크로, 4가지 하위 작업( (1) 음식 단독, (2) 음식+음식, (3) 음식+배경, (4) 음식+음식+배경)에 대해 확산 모델로 생성되고 인간이 검증한 23,000개의 문화 혼합 이미지로 구성됩니다. 10개의 LVLM을 평가한 결과, 혼합된 환경에서 개별 문화적 정체성을 유지하는 데 모델들이 일관되게 실패하는 것을 확인했습니다. 모델들은 강한 배경 의존성을 보였으며, 음식만 있는 기준 설정에 문화적 배경이 추가되면 정확도가 14% 하락했습니다. 또한 동일한 음식에 대해 다른 맥락에서 일관성 없는 예측을 생성했습니다. 이러한 한계를 해결하기 위해 우리는 세 가지 강건성 전략을 탐구합니다. 다양한 문화 혼합 데이터셋을 활용한 지도 미세 조정이 모델의 일관성을 크게 향상시키고 배경 민감도를 줄인다는 사실을 발견했습니다. 우리는 문화 혼합 시나리오에 대한 관심을 높여, 문화적으로 다양한 실제 환경에서 안정적으로 작동할 수 있는 LVLM 개발로 나아가는 것이 중요하다고 촉구합니다.
English
In a globalized world, cultural elements from diverse origins frequently appear together within a single visual scene. We refer to these as culture mixing scenarios, yet how Large Vision-Language Models (LVLMs) perceive them remains underexplored. We investigate culture mixing as a critical challenge for LVLMs and examine how current models behave when cultural items from multiple regions appear together. To systematically analyze these behaviors, we construct CultureMix, a food Visual Question Answering (VQA) benchmark with 23k diffusion-generated, human-verified culture mixing images across four subtasks: (1) food-only, (2) food+food, (3) food+background, and (4) food+food+background. Evaluating 10 LVLMs, we find consistent failures to preserve individual cultural identities in mixed settings. Models show strong background reliance, with accuracy dropping 14% when cultural backgrounds are added to food-only baselines, and they produce inconsistent predictions for identical foods across different contexts. To address these limitations, we explore three robustness strategies. We find supervised fine-tuning using a diverse culture mixing dataset substantially improve model consistency and reduce background sensitivity. We call for increased attention to culture mixing scenarios as a critical step toward developing LVLMs capable of operating reliably in culturally diverse real-world environments.