Adaptation régionale anthropique dans les modèles multimodaux vision-langage

Résumé

Bien que le domaine de la vision et du langage (VL) ait connu un succès remarquable dans l'intégration des informations visuelles et textuelles à travers de multiples langues et domaines, il n'existe toujours pas de cadre dédié pour évaluer l'alignement centré sur l'humain dans les systèmes de vision et de langage. Nous proposons deux contributions pour combler cette lacune. Premièrement, nous introduisons l'**Adaptation Régionale Anthropogénique** : un nouveau paradigme qui vise à optimiser la pertinence des modèles pour des contextes régionaux spécifiques tout en garantissant la rétention des capacités de généralisation globale. Deuxièmement, nous présentons une méthode d'adaptation simple mais efficace nommée **Geographical-generalization-made-easy (GG-EZ)**, qui utilise le filtrage des données régionales et la fusion de modèles. Grâce à des expériences approfondies sur 3 architectures VL – les grands modèles de vision et de langage, les modèles de diffusion text-to-image et les modèles d'embedding vision-langage – et une étude de cas sur l'adaptation régionale en Asie du Sud-Est (ASE), nous démontrons l'importance de l'Adaptation Régionale Anthropogénique et l'efficacité de GG-EZ, avec des gains de 5 à 15 % sur les métriques de pertinence culturelle à travers l'ASE tout en maintenant plus de 98 % des performances globales, les surpassant même parfois. Nos résultats établissent l'Alignement Régional Anthropogénique comme un paradigme fondamental pour l'applicabilité des modèles multimodaux de vision et de langage dans diverses régions et démontrent une méthode de base simple mais efficace qui optimise l'alignement sur les valeurs régionales tout en préservant la généralisation globale.

English

While the field of vision-language (VL) has achieved remarkable success in integrating visual and textual information across multiple languages and domains, there is still no dedicated framework for assessing human-centric alignment in vision-language systems. We offer two contributions to address this gap. First, we introduce Anthropogenic Regional Adaptation: a novel paradigm that aims to optimize model relevance to specific regional contexts while ensuring the retention of global generalization capabilities. Second, we present a simple, but effective adaptation method named Geographical-generalization-made-easy (GG-EZ), which utilizes regional data filtering and model merging. Through comprehensive experiments on 3 VL architectures: large vision-language models, text-to-image diffusion models, and vision-language embedding models, and a case study in Southeast Asia (SEA) regional adaptation, we demonstrate the importance of Anthropogenic Regional Adaptation and the effectiveness of GG-EZ, showing 5-15% gains in cultural relevance metrics across SEA while maintaining over 98% of global performance and even occasionally surpassing it. Our findings establish Anthropogenic Regional Alignment as a foundational paradigm towards applicability of multimodal vision-language models in diverse regions and demonstrate a simple-yet-effective baseline method that optimizes regional value alignment while preserving global generalization.

Adaptation régionale anthropique dans les modèles multimodaux vision-langage

Anthropogenic Regional Adaptation in Multimodal Vision-Language Model

Résumé

Support