ChatPaper.aiChatPaper

MELLA: Conectando Capacidade Linguística e Fundamentação Cultural para MLLMs de Idiomas de Baixos Recursos

MELLA: Bridging Linguistic Capability and Cultural Groundedness for Low-Resource Language MLLMs

August 7, 2025
Autores: Yufei Gao, Jiaying Fei, Nuo Chen, Ruirui Chen, Guohang Yan, Yunshi Lan, Botian Shi
cs.AI

Resumo

Modelos de Linguagem Multimodais de Grande Escala (MLLMs) têm demonstrado desempenho notável em idiomas de alta disponibilidade de recursos. No entanto, sua eficácia diminui significativamente em contextos de idiomas de baixa disponibilidade de recursos. Os métodos atuais de aprimoramento multilíngue frequentemente se limitam à modalidade textual ou dependem exclusivamente de tradução automática. Embora tais abordagens ajudem os modelos a adquirir capacidades linguísticas básicas e produzir "descrições superficiais", elas negligenciam a importância da informatividade multimodal e da fundamentação cultural, ambas cruciais para atender efetivamente os usuários de idiomas de baixa disponibilidade de recursos. Para preencher essa lacuna, neste estudo, identificamos dois objetivos significativos para um MLLM verdadeiramente eficaz em contextos de idiomas de baixa disponibilidade de recursos, a saber: 1) capacidade linguística e 2) fundamentação cultural, com ênfase especial na consciência cultural. Para alcançar esses objetivos duais, propomos uma estratégia de dupla fonte que orienta a coleta de dados específicos para cada meta, utilizando textos alternativos nativos da web para cultura e legendas geradas por MLLMs para linguística. Como uma implementação concreta, apresentamos MELLA, um conjunto de dados multimodal e multilíngue. Os resultados dos experimentos mostram que, após o ajuste fino em MELLA, há uma melhoria geral no desempenho para os oito idiomas em várias arquiteturas de MLLM, com os modelos produzindo "descrições detalhadas". Verificamos que os ganhos de desempenho são provenientes tanto do aprimoramento do conhecimento cultural quanto da melhoria da capacidade linguística. Nosso conjunto de dados pode ser encontrado em https://opendatalab.com/applyMultilingualCorpus.
English
Multimodal Large Language Models (MLLMs) have shown remarkable performance in high-resource languages. However, their effectiveness diminishes significantly in the contexts of low-resource languages. Current multilingual enhancement methods are often limited to text modality or rely solely on machine translation. While such approaches help models acquire basic linguistic capabilities and produce "thin descriptions", they neglect the importance of multimodal informativeness and cultural groundedness, both of which are crucial for serving low-resource language users effectively. To bridge this gap, in this study, we identify two significant objectives for a truly effective MLLM in low-resource language settings, namely 1) linguistic capability and 2) cultural groundedness, placing special emphasis on cultural awareness. To achieve these dual objectives, we propose a dual-source strategy that guides the collection of data tailored to each goal, sourcing native web alt-text for culture and MLLM-generated captions for linguistics. As a concrete implementation, we introduce MELLA, a multimodal, multilingual dataset. Experiment results show that after fine-tuning on MELLA, there is a general performance improvement for the eight languages on various MLLM backbones, with models producing "thick descriptions". We verify that the performance gains are from both cultural knowledge enhancement and linguistic capability enhancement. Our dataset can be found at https://opendatalab.com/applyMultilingualCorpus.
PDF62August 11, 2025