Adattamento Regionale Antropogenico nei Modelli Multimodali Visione-Linguaggio

Abstract

Sebbene il campo visione-linguaggio (VL) abbia ottenuto un notevole successo nell'integrare informazioni visive e testuali in più lingue e domini, manca ancora un quadro dedicato per valutare l'allineamento antropocentrico nei sistemi visione-linguaggio. Forniamo due contributi per colmare questa lacuna. In primo luogo, introduciamo l'Adattamento Regionale Antropogenico: un nuovo paradigma che mira a ottimizzare la rilevanza del modello per contesti regionali specifici, garantendo al contempo la conservazione delle capacità di generalizzazione globale. In secondo luogo, presentiamo un metodo di adattamento semplice ma efficace denominato Geographical-generalization-made-easy (GG-EZ), che utilizza il filtraggio dei dati regionali e la fusione di modelli. Attraverso esperimenti completi su 3 architetture VL: grandi modelli visione-linguaggio, modelli di diffusione text-to-image e modelli di incorporamento visione-linguaggio, e uno studio di caso sull'adattamento regionale nel Sud-est asiatico (SEA), dimostriamo l'importanza dell'Adattamento Regionale Antropogenico e l'efficacia di GG-EZ, mostrando miglioramenti del 5-15% nelle metriche di rilevanza cultolare in tutto il SEA, mantenendo oltre il 98% delle prestazioni globali e occasionalmente superandole. I nostri risultati stabiliscono l'Allineamento Regionale Antropogenico come paradigma fondamentale per l'applicabilità dei modelli visione-linguaggio multimodali in diverse regioni e dimostrano un metodo baseline semplice ma efficace che ottimizza l'allineamento dei valori regionali preservando la generalizzazione globale.

English

While the field of vision-language (VL) has achieved remarkable success in integrating visual and textual information across multiple languages and domains, there is still no dedicated framework for assessing human-centric alignment in vision-language systems. We offer two contributions to address this gap. First, we introduce Anthropogenic Regional Adaptation: a novel paradigm that aims to optimize model relevance to specific regional contexts while ensuring the retention of global generalization capabilities. Second, we present a simple, but effective adaptation method named Geographical-generalization-made-easy (GG-EZ), which utilizes regional data filtering and model merging. Through comprehensive experiments on 3 VL architectures: large vision-language models, text-to-image diffusion models, and vision-language embedding models, and a case study in Southeast Asia (SEA) regional adaptation, we demonstrate the importance of Anthropogenic Regional Adaptation and the effectiveness of GG-EZ, showing 5-15% gains in cultural relevance metrics across SEA while maintaining over 98% of global performance and even occasionally surpassing it. Our findings establish Anthropogenic Regional Alignment as a foundational paradigm towards applicability of multimodal vision-language models in diverse regions and demonstrate a simple-yet-effective baseline method that optimizes regional value alignment while preserving global generalization.

Adattamento Regionale Antropogenico nei Modelli Multimodali Visione-Linguaggio

Anthropogenic Regional Adaptation in Multimodal Vision-Language Model

Abstract

Support