ChatPaper.aiChatPaper

Mundo en un Marco: Comprender la Mezcla Cultural como un Nuevo Desafío para los Modelos de Visión y Lenguaje

World in a Frame: Understanding Culture Mixing as a New Challenge for Vision-Language Models

November 27, 2025
Autores: Eunsu Kim, Junyeong Park, Na Min An, Junseong Kim, Hitesh Laxmichand Patel, Jiho Jin, Julia Kruk, Amit Agarwal, Srikant Panda, Fenal Ashokbhai Ilasariya, Hyunjung Shim, Alice Oh
cs.AI

Resumen

En un mundo globalizado, los elementos culturales de diversos orígenes aparecen frecuentemente juntos en una misma escena visual. Nos referimos a estos como escenarios de mezcla cultural, pero la forma en que los Modelos Grandes de Visión y Lenguaje (LVLM, por sus siglas en inglés) los perciben sigue siendo un área poco explorada. Investigamos la mezcla cultural como un desafío crítico para los LVLM y examinamos cómo se comportan los modelos actuales cuando aparecen juntos elementos culturales de múltiples regiones. Para analizar sistemáticamente estos comportamientos, construimos CultureMix, un benchmark de Respuesta Visual a Preguntas (VQA) sobre comida con 23k imágenes de mezcla cultural generadas por difusión y verificadas por humanos, que abarca cuatro subtareas: (1) solo comida, (2) comida+comida, (3) comida+fondo y (4) comida+comida+fondo. Al evaluar 10 LVLM, encontramos fallos consistentes para preservar las identidades culturales individuales en entornos mixtos. Los modelos muestran una fuerte dependencia del fondo, con una precisión que cae un 14% cuando se añaden fondos culturales a las líneas base de solo comida, y producen predicciones inconsistentes para comidas idénticas en diferentes contextos. Para abordar estas limitaciones, exploramos tres estrategias de robustez. Encontramos que el ajuste fino supervisado utilizando un conjunto de datos diverso de mezcla cultural mejora sustancialmente la consistencia del modelo y reduce la sensibilidad al fondo. Hacemos un llamado para prestar mayor atención a los escenarios de mezcla cultural como un paso crítico hacia el desarrollo de LVLM capaces de operar de manera confiable en entornos reales culturalmente diversos.
English
In a globalized world, cultural elements from diverse origins frequently appear together within a single visual scene. We refer to these as culture mixing scenarios, yet how Large Vision-Language Models (LVLMs) perceive them remains underexplored. We investigate culture mixing as a critical challenge for LVLMs and examine how current models behave when cultural items from multiple regions appear together. To systematically analyze these behaviors, we construct CultureMix, a food Visual Question Answering (VQA) benchmark with 23k diffusion-generated, human-verified culture mixing images across four subtasks: (1) food-only, (2) food+food, (3) food+background, and (4) food+food+background. Evaluating 10 LVLMs, we find consistent failures to preserve individual cultural identities in mixed settings. Models show strong background reliance, with accuracy dropping 14% when cultural backgrounds are added to food-only baselines, and they produce inconsistent predictions for identical foods across different contexts. To address these limitations, we explore three robustness strategies. We find supervised fine-tuning using a diverse culture mixing dataset substantially improve model consistency and reduce background sensitivity. We call for increased attention to culture mixing scenarios as a critical step toward developing LVLMs capable of operating reliably in culturally diverse real-world environments.
PDF61December 2, 2025