Anthropogene regionale Anpassung in multimodalen Vision-Sprache-Modellen

Zusammenfassung

Während das Feld der Vision-Sprache (VL) bemerkenswerte Erfolge bei der Integration visueller und textueller Informationen über mehrere Sprachen und Domänen hinweg erzielt hat, existiert noch kein dediziertes Framework zur Bewertung der menschenzentrierten Ausrichtung in Vision-Sprache-Systemen. Wir leisten zwei Beiträge, um diese Lücke zu schließen. Erstens führen wir die Anthropogene Regionale Adaptation ein: ein neuartiges Paradigma, das darauf abzielt, die Modellrelevanz für spezifische regionale Kontexte zu optimieren und gleichzeitig die Beibehaltung globaler Generalisierungsfähigkeiten sicherzustellen. Zweitens präsentieren wir eine einfache, aber effektive Adaptationsmethode namens Geographical-Generalization-made-easy (GG-EZ), die regionale Datenfilterung und Modellzusammenführung nutzt. Durch umfassende Experimente mit 3 VL-Architekturen – großen Vision-Sprache-Modellen, Text-zu-Bild-Diffusionsmodellen und Vision-Sprache-Einbettungsmodellen – sowie einer Fallstudie zur regionalen Adaptation in Südostasien (SEA) demonstrieren wir die Bedeutung der Anthropogenen Regionalen Adaptation und die Wirksamkeit von GG-EZ. Dabei zeigen wir Steigerungen von 5–15 % in kulturellen Relevanzmetriken für die SEA-Region bei gleichzeitiger Beibehaltung von über 98 % der globalen Leistung, die gelegentlich sogar übertroffen wird. Unsere Ergebnisse etablieren die Anthropogene Regionale Ausrichtung als ein grundlegendes Paradigma für die Anwendbarkeit multimodaler Vision-Sprache-Modelle in verschiedenen Regionen und demonstrieren eine einfache, aber effektive Baseline-Methode, die die regionale Wertausrichtung optimiert und gleichzeitig die globale Generalisierung bewahrt.

English

While the field of vision-language (VL) has achieved remarkable success in integrating visual and textual information across multiple languages and domains, there is still no dedicated framework for assessing human-centric alignment in vision-language systems. We offer two contributions to address this gap. First, we introduce Anthropogenic Regional Adaptation: a novel paradigm that aims to optimize model relevance to specific regional contexts while ensuring the retention of global generalization capabilities. Second, we present a simple, but effective adaptation method named Geographical-generalization-made-easy (GG-EZ), which utilizes regional data filtering and model merging. Through comprehensive experiments on 3 VL architectures: large vision-language models, text-to-image diffusion models, and vision-language embedding models, and a case study in Southeast Asia (SEA) regional adaptation, we demonstrate the importance of Anthropogenic Regional Adaptation and the effectiveness of GG-EZ, showing 5-15% gains in cultural relevance metrics across SEA while maintaining over 98% of global performance and even occasionally surpassing it. Our findings establish Anthropogenic Regional Alignment as a foundational paradigm towards applicability of multimodal vision-language models in diverse regions and demonstrate a simple-yet-effective baseline method that optimizes regional value alignment while preserving global generalization.

Anthropogene regionale Anpassung in multimodalen Vision-Sprache-Modellen

Anthropogenic Regional Adaptation in Multimodal Vision-Language Model

Zusammenfassung

Support