Adaptação Regional Antropogênica em Modelos Multimodais de Visão e Linguagem

Resumo

Embora a área de visão-linguagem (VL) tenha alcançado sucesso notável na integração de informações visuais e textuais em múltiplos idiomas e domínios, ainda não existe uma estrutura dedicada para avaliar o alinhamento antropocêntrico em sistemas de visão-linguagem. Oferecemos duas contribuições para abordar essa lacuna. Primeiro, introduzimos a Adaptação Regional Antropogênica: um novo paradigma que visa otimizar a relevância do modelo para contextos regionais específicos, garantindo a retenção de capacidades de generalização global. Segundo, apresentamos um método de adaptação simples, mas eficaz, denominado Geographical-generalization-made-easy (GG-EZ), que utiliza filtragem de dados regionais e fusão de modelos. Por meio de experimentos abrangentes em 3 arquiteturas de VL: grandes modelos de visão-linguagem, modelos de difusão texto-imagem e modelos de incorporação visão-linguagem, e um estudo de caso na adaptação regional do Sudeste Asiático (SEA), demonstramos a importância da Adaptação Regional Antropogênica e a eficácia do GG-EZ, mostrando ganhos de 5-15% em métricas de relevância cultural em toda a região SEA, mantendo mais de 98% do desempenho global e ocasionalmente superando-o. Nossos resultados estabelecem o Alinhamento Regional Antropogênico como um paradigma fundamental para a aplicabilidade de modelos multimodais de visão-linguagem em diversas regiões e demonstram um método de linha de base simples, porém eficaz, que otimiza o alinhamento de valores regionais preservando a generalização global.

English

While the field of vision-language (VL) has achieved remarkable success in integrating visual and textual information across multiple languages and domains, there is still no dedicated framework for assessing human-centric alignment in vision-language systems. We offer two contributions to address this gap. First, we introduce Anthropogenic Regional Adaptation: a novel paradigm that aims to optimize model relevance to specific regional contexts while ensuring the retention of global generalization capabilities. Second, we present a simple, but effective adaptation method named Geographical-generalization-made-easy (GG-EZ), which utilizes regional data filtering and model merging. Through comprehensive experiments on 3 VL architectures: large vision-language models, text-to-image diffusion models, and vision-language embedding models, and a case study in Southeast Asia (SEA) regional adaptation, we demonstrate the importance of Anthropogenic Regional Adaptation and the effectiveness of GG-EZ, showing 5-15% gains in cultural relevance metrics across SEA while maintaining over 98% of global performance and even occasionally surpassing it. Our findings establish Anthropogenic Regional Alignment as a foundational paradigm towards applicability of multimodal vision-language models in diverse regions and demonstrate a simple-yet-effective baseline method that optimizes regional value alignment while preserving global generalization.

Adaptação Regional Antropogênica em Modelos Multimodais de Visão e Linguagem

Anthropogenic Regional Adaptation in Multimodal Vision-Language Model

Resumo

Support