다중모드 시각-언어 모델의 인위적 지역적 적응

초록

비전-언어(VL) 분야가 다중 언어 및 도메인에서 시각 정보와 텍스트 정보의 통합에 있어 놀라운 성과를 거두었음에도 불구하고, 비전-언어 시스템의 인간 중심 정렬을 평가하기 위한 전용 프레임워크는 여전히 부재합니다. 본 논문은 이러한 격차를 해소하기 위해 두 가지 기여를 제안합니다. 첫째, 특정 지역적 맥락에 대한 모델의 관련성을 최적화하면서 전역 일반화 능력의 유지를 보장하는 새로운 패러다임인 '인류지역적 적응(Anthropogenic Regional Adaptation)'을 소개합니다. 둘째, 지역 데이터 필터링과 모델 병합을 활용하는 간단하면서 효과적인 적응 방법인 GG-EZ(Geographical-generalization-made-easy)를 제시합니다. 대규모 비전-언어 모델, 텍스트-이미지 확산 모델, 비전-언어 임베딩 모델이라는 3가지 VL 아키텍처에 대한 포괄적인 실험과 동남아시아(SEA) 지역 적응 사례 연구를 통해, 우리는 인류지역적 적응의 중요성과 GG-EZ의 효과를 입증하였습니다. SEA 전역에서 문화적 관련성 지표가 5-15% 향상되었으며, 전역 성능의 98% 이상을 유지하면서 경우에 따라 이를 능가하기도 했습니다. 우리의 연구 결과는 인류지역적 정렬을 다양한 지역에서의 다중 모달 비전-언어 모델 적용 가능성을 위한 기초 패러다임으로 정립하며, 전역 일반화를 보존하면서 지역적 가치 정렬을 최적화하는 간단하면서 효과적인 기준 방법을 보여줍니다.

English

While the field of vision-language (VL) has achieved remarkable success in integrating visual and textual information across multiple languages and domains, there is still no dedicated framework for assessing human-centric alignment in vision-language systems. We offer two contributions to address this gap. First, we introduce Anthropogenic Regional Adaptation: a novel paradigm that aims to optimize model relevance to specific regional contexts while ensuring the retention of global generalization capabilities. Second, we present a simple, but effective adaptation method named Geographical-generalization-made-easy (GG-EZ), which utilizes regional data filtering and model merging. Through comprehensive experiments on 3 VL architectures: large vision-language models, text-to-image diffusion models, and vision-language embedding models, and a case study in Southeast Asia (SEA) regional adaptation, we demonstrate the importance of Anthropogenic Regional Adaptation and the effectiveness of GG-EZ, showing 5-15% gains in cultural relevance metrics across SEA while maintaining over 98% of global performance and even occasionally surpassing it. Our findings establish Anthropogenic Regional Alignment as a foundational paradigm towards applicability of multimodal vision-language models in diverse regions and demonstrate a simple-yet-effective baseline method that optimizes regional value alignment while preserving global generalization.

다중모드 시각-언어 모델의 인위적 지역적 적응

Anthropogenic Regional Adaptation in Multimodal Vision-Language Model

초록

Support