Adaptación Regional Antropogénica en Modelos Multimodales de Visión y Lenguaje

Resumen

Si bien el campo de visión y lenguaje (VL) ha logrado un éxito notable en la integración de información visual y textual en múltiples idiomas y dominios, aún no existe un marco dedicado para evaluar la alineación centrada en lo humano en los sistemas de visión y lenguaje. Ofrecemos dos contribuciones para abordar esta brecha. Primero, presentamos la Adaptación Regional Antropogénica: un paradigma novedoso que busca optimizar la relevancia del modelo para contextos regionales específicos, mientras garantiza la retención de capacidades de generalización global. Segundo, presentamos un método de adaptación simple pero efectivo denominado Generalización-geográfica-hecha-fácil (GG-EZ), que utiliza filtrado de datos regionales y fusión de modelos. Mediante experimentos exhaustivos en 3 arquitecturas VL: modelos grandes de visión y lenguaje, modelos de difusión de texto a imagen y modelos de incrustación de visión y lenguaje, y un estudio de caso en adaptación regional del Sudeste Asiático (SEA), demostramos la importancia de la Adaptación Regional Antropogénica y la efectividad de GG-EZ, mostrando mejoras del 5 al 15% en métricas de relevancia cultural en la región SEA mientras se mantiene más del 98% del rendimiento global e incluso superándolo ocasionalmente. Nuestros hallazgos establecen la Alineación Regional Antropogénica como un paradigma fundamental para la aplicabilidad de los modelos multimodales de visión y lenguaje en diversas regiones y demuestran un método de referencia simple pero efectivo que optimiza la alineación de valores regionales preservando la generalización global.

English

While the field of vision-language (VL) has achieved remarkable success in integrating visual and textual information across multiple languages and domains, there is still no dedicated framework for assessing human-centric alignment in vision-language systems. We offer two contributions to address this gap. First, we introduce Anthropogenic Regional Adaptation: a novel paradigm that aims to optimize model relevance to specific regional contexts while ensuring the retention of global generalization capabilities. Second, we present a simple, but effective adaptation method named Geographical-generalization-made-easy (GG-EZ), which utilizes regional data filtering and model merging. Through comprehensive experiments on 3 VL architectures: large vision-language models, text-to-image diffusion models, and vision-language embedding models, and a case study in Southeast Asia (SEA) regional adaptation, we demonstrate the importance of Anthropogenic Regional Adaptation and the effectiveness of GG-EZ, showing 5-15% gains in cultural relevance metrics across SEA while maintaining over 98% of global performance and even occasionally surpassing it. Our findings establish Anthropogenic Regional Alignment as a foundational paradigm towards applicability of multimodal vision-language models in diverse regions and demonstrate a simple-yet-effective baseline method that optimizes regional value alignment while preserving global generalization.

Adaptación Regional Antropogénica en Modelos Multimodales de Visión y Lenguaje

Anthropogenic Regional Adaptation in Multimodal Vision-Language Model

Resumen

Support