Антропогенная региональная адаптация мультимодальной модели «зрение–язык»

Аннотация

Хотя область обработки визуально-языковой информации (VL) достигла значительных успехов в интеграции визуальной и текстовой информации для множества языков и доменов, до сих пор не существует специализированной системы для оценки антропоцентричной согласованности в VL-системах. Мы предлагаем два вклада для устранения этого пробела. Во-первых, мы представляем Антропогенную Региональную Адаптацию: новую парадигму, направленную на оптимизацию релевантности моделей для конкретных региональных контекстов при сохранении глобальных возможностей обобщения. Во-вторых, мы предлагаем простой, но эффективный метод адаптации под названием Географическое-обобщение-сделанное-просто (GG-EZ), который использует фильтрацию региональных данных и слияние моделей. В ходе всесторонних экспериментов на 3 VL-архитектурах: больших мультимодальных моделях, диффузионных моделях текст-изображение и моделях визуально-языкового embedding, а также на примере региональной адаптации в Юго-Восточной Азии (ЮВА), мы демонстрируем важность Антропогенной Региональной Адаптации и эффективность GG-EZ, показывая рост на 5-15% по метрикам культурной релевантности в ЮВА при сохранении более 98% глобальной производительности и даже периодическом её превышении. Наши результаты устанавливают Антропогенную Региональную Согласованность в качестве фундаментальной парадигмы для применимости мультимодальных VL-моделей в различных регионах и демонстрируют простой, но эффективный базовый метод, который оптимизирует региональную ценностную согласованность, сохраняя глобальную способность к обобщению.

English

While the field of vision-language (VL) has achieved remarkable success in integrating visual and textual information across multiple languages and domains, there is still no dedicated framework for assessing human-centric alignment in vision-language systems. We offer two contributions to address this gap. First, we introduce Anthropogenic Regional Adaptation: a novel paradigm that aims to optimize model relevance to specific regional contexts while ensuring the retention of global generalization capabilities. Second, we present a simple, but effective adaptation method named Geographical-generalization-made-easy (GG-EZ), which utilizes regional data filtering and model merging. Through comprehensive experiments on 3 VL architectures: large vision-language models, text-to-image diffusion models, and vision-language embedding models, and a case study in Southeast Asia (SEA) regional adaptation, we demonstrate the importance of Anthropogenic Regional Adaptation and the effectiveness of GG-EZ, showing 5-15% gains in cultural relevance metrics across SEA while maintaining over 98% of global performance and even occasionally surpassing it. Our findings establish Anthropogenic Regional Alignment as a foundational paradigm towards applicability of multimodal vision-language models in diverse regions and demonstrate a simple-yet-effective baseline method that optimizes regional value alignment while preserving global generalization.

Антропогенная региональная адаптация мультимодальной модели «зрение–язык»

Anthropogenic Regional Adaptation in Multimodal Vision-Language Model

Аннотация

Support