MELLA: Соединение языковых возможностей и культурной укоренённости для мультиязычных моделей с ограниченными ресурсами
MELLA: Bridging Linguistic Capability and Cultural Groundedness for Low-Resource Language MLLMs
August 7, 2025
Авторы: Yufei Gao, Jiaying Fei, Nuo Chen, Ruirui Chen, Guohang Yan, Yunshi Lan, Botian Shi
cs.AI
Аннотация
Мультимодальные большие языковые модели (MLLM) демонстрируют выдающиеся результаты в высокоресурсных языках. Однако их эффективность значительно снижается в контексте низкоресурсных языков. Современные методы мультиязычного улучшения часто ограничиваются текстовой модальностью или полагаются исключительно на машинный перевод. Хотя такие подходы помогают моделям приобрести базовые лингвистические способности и генерировать "поверхностные описания", они упускают важность мультимодальной информативности и культурной укоренённости, которые имеют решающее значение для эффективного обслуживания пользователей низкоресурсных языков. Чтобы устранить этот пробел, в данном исследовании мы выделяем две ключевые цели для действительно эффективной MLLM в условиях низкоресурсных языков, а именно: 1) лингвистическая способность и 2) культурная укоренённость, с особым акцентом на культурную осведомлённость. Для достижения этих двойных целей мы предлагаем стратегию двойного источника, которая направляет сбор данных, адаптированных для каждой цели, используя веб-альттексты на родном языке для культуры и подписи, сгенерированные MLLM, для лингвистики. В качестве конкретной реализации мы представляем MELLA — мультимодальный, мультиязычный набор данных. Результаты экспериментов показывают, что после тонкой настройки на MELLA наблюдается общее улучшение производительности для восьми языков на различных архитектурах MLLM, при этом модели генерируют "глубокие описания". Мы подтверждаем, что улучшение производительности связано как с усилением культурных знаний, так и с улучшением лингвистических способностей. Наш набор данных доступен по адресу https://opendatalab.com/applyMultilingualCorpus.
English
Multimodal Large Language Models (MLLMs) have shown remarkable performance in
high-resource languages. However, their effectiveness diminishes significantly
in the contexts of low-resource languages. Current multilingual enhancement
methods are often limited to text modality or rely solely on machine
translation. While such approaches help models acquire basic linguistic
capabilities and produce "thin descriptions", they neglect the importance of
multimodal informativeness and cultural groundedness, both of which are crucial
for serving low-resource language users effectively. To bridge this gap, in
this study, we identify two significant objectives for a truly effective MLLM
in low-resource language settings, namely 1) linguistic capability and 2)
cultural groundedness, placing special emphasis on cultural awareness. To
achieve these dual objectives, we propose a dual-source strategy that guides
the collection of data tailored to each goal, sourcing native web alt-text for
culture and MLLM-generated captions for linguistics. As a concrete
implementation, we introduce MELLA, a multimodal, multilingual dataset.
Experiment results show that after fine-tuning on MELLA, there is a general
performance improvement for the eight languages on various MLLM backbones, with
models producing "thick descriptions". We verify that the performance gains are
from both cultural knowledge enhancement and linguistic capability enhancement.
Our dataset can be found at https://opendatalab.com/applyMultilingualCorpus.