ChatPaper.aiChatPaper

Welt im Rahmen: Kulturelle Vermischung als neue Herausforderung für Bild-Text-Modelle verstehen

World in a Frame: Understanding Culture Mixing as a New Challenge for Vision-Language Models

November 27, 2025
papers.authors: Eunsu Kim, Junyeong Park, Na Min An, Junseong Kim, Hitesh Laxmichand Patel, Jiho Jin, Julia Kruk, Amit Agarwal, Srikant Panda, Fenal Ashokbhai Ilasariya, Hyunjung Shim, Alice Oh
cs.AI

papers.abstract

In einer globalisierten Welt treten kulturelle Elemente unterschiedlicher Herkunft häufig gemeinsam in einer einzigen visuellen Szene auf. Wir bezeichnen diese als Kulturmischszenarien, doch wie Large Vision-Language Models (LVLMs) diese wahrnehmen, ist noch unzureichend erforscht. Wir untersuchen Kulturmischung als eine kritische Herausforderung für LVLMs und analysieren, wie sich aktuelle Modelle verhalten, wenn kulturelle Gegenstände aus mehreren Regionen zusammen auftreten. Um diese Verhaltensweisen systematisch zu analysieren, erstellen wir CultureMix, einen Benchmark für visuelle Fragebeantwortung (Visual Question Answering, VQA) zum Thema Essen mit 23.000 diffusionsgenerierten, menschlich verifizierten Kulturmischbildern über vier Teilaufgaben hinweg: (1) nur Essen, (2) Essen+Essen, (3) Essen+Hintergrund und (4) Essen+Essen+Hintergrund. Bei der Evaluation von 10 LVLMs stellen wir durchgängige Fehler beim Erhalt individueller kultureller Identitäten in gemischten Szenarien fest. Die Modelle zeigen eine starke Abhängigkeit vom Hintergrund – die Genauigkeit sinkt um 14 %, wenn kulturelle Hintergründe zu den Nur-Essen-Baselines hinzugefügt werden – und sie liefern inkonsistente Vorhersagen für identische Speisen in verschiedenen Kontexten. Um diese Einschränkungen zu adressieren, untersuchen wir drei Robustheitsstrategien. Wir stellen fest, dass überwachtes Feinabstimmen (Supervised Fine-Tuning) mit einem diversen Kulturmischungsdatensatz die Modellkonsistenz erheblich verbessert und die Hintergrundabhängigkeit verringert. Wir plädieren für eine stärkere Beachtung von Kulturmischszenarien als einen entscheidenden Schritt zur Entwicklung von LVLMs, die zuverlässig in kulturell diversen realen Umgebungen operieren können.
English
In a globalized world, cultural elements from diverse origins frequently appear together within a single visual scene. We refer to these as culture mixing scenarios, yet how Large Vision-Language Models (LVLMs) perceive them remains underexplored. We investigate culture mixing as a critical challenge for LVLMs and examine how current models behave when cultural items from multiple regions appear together. To systematically analyze these behaviors, we construct CultureMix, a food Visual Question Answering (VQA) benchmark with 23k diffusion-generated, human-verified culture mixing images across four subtasks: (1) food-only, (2) food+food, (3) food+background, and (4) food+food+background. Evaluating 10 LVLMs, we find consistent failures to preserve individual cultural identities in mixed settings. Models show strong background reliance, with accuracy dropping 14% when cultural backgrounds are added to food-only baselines, and they produce inconsistent predictions for identical foods across different contexts. To address these limitations, we explore three robustness strategies. We find supervised fine-tuning using a diverse culture mixing dataset substantially improve model consistency and reduce background sensitivity. We call for increased attention to culture mixing scenarios as a critical step toward developing LVLMs capable of operating reliably in culturally diverse real-world environments.
PDF61December 2, 2025