ChatPaper.aiChatPaper

MELLA: Het overbruggen van linguïstische vaardigheid en culturele verankering voor MLLM's in talen met beperkte bronnen

MELLA: Bridging Linguistic Capability and Cultural Groundedness for Low-Resource Language MLLMs

August 7, 2025
Auteurs: Yufei Gao, Jiaying Fei, Nuo Chen, Ruirui Chen, Guohang Yan, Yunshi Lan, Botian Shi
cs.AI

Samenvatting

Multimodale Large Language Models (MLLMs) hebben opmerkelijke prestaties getoond in talen met veel bronnen. Hun effectiviteit neemt echter aanzienlijk af in de context van talen met weinig bronnen. Huidige methoden voor meertalige verbetering zijn vaak beperkt tot de tekstmodaliteit of vertrouwen uitsluitend op machinaal vertalen. Hoewel dergelijke benaderingen modellen helpen basislinguïstische vaardigheden te verwerven en "dunne beschrijvingen" te produceren, negeren ze het belang van multimodale informatiewaarde en culturele verankering, die beide cruciaal zijn voor het effectief bedienen van gebruikers van talen met weinig bronnen. Om deze kloof te overbruggen, identificeren we in deze studie twee belangrijke doelstellingen voor een echt effectieve MLLM in omgevingen met talen met weinig bronnen, namelijk 1) linguïstische capaciteit en 2) culturele verankering, met speciale nadruk op cultureel bewustzijn. Om deze dubbele doelstellingen te bereiken, stellen we een dual-source strategie voor die de verzameling van gegevens begeleidt die zijn afgestemd op elk doel, waarbij native web alt-teksten voor cultuur en MLLM-gegenereerde bijschriften voor linguïstiek worden gebruikt. Als concrete implementatie introduceren we MELLA, een multimodale, meertalige dataset. Experimentele resultaten tonen aan dat na fine-tuning op MELLA er een algemene prestatieverbetering is voor de acht talen op verschillende MLLM-backbones, waarbij modellen "dikke beschrijvingen" produceren. We verifiëren dat de prestatieverbeteringen voortkomen uit zowel de verbetering van culturele kennis als de verbetering van linguïstische capaciteit. Onze dataset is te vinden op https://opendatalab.com/applyMultilingualCorpus.
English
Multimodal Large Language Models (MLLMs) have shown remarkable performance in high-resource languages. However, their effectiveness diminishes significantly in the contexts of low-resource languages. Current multilingual enhancement methods are often limited to text modality or rely solely on machine translation. While such approaches help models acquire basic linguistic capabilities and produce "thin descriptions", they neglect the importance of multimodal informativeness and cultural groundedness, both of which are crucial for serving low-resource language users effectively. To bridge this gap, in this study, we identify two significant objectives for a truly effective MLLM in low-resource language settings, namely 1) linguistic capability and 2) cultural groundedness, placing special emphasis on cultural awareness. To achieve these dual objectives, we propose a dual-source strategy that guides the collection of data tailored to each goal, sourcing native web alt-text for culture and MLLM-generated captions for linguistics. As a concrete implementation, we introduce MELLA, a multimodal, multilingual dataset. Experiment results show that after fine-tuning on MELLA, there is a general performance improvement for the eight languages on various MLLM backbones, with models producing "thick descriptions". We verify that the performance gains are from both cultural knowledge enhancement and linguistic capability enhancement. Our dataset can be found at https://opendatalab.com/applyMultilingualCorpus.
PDF62August 11, 2025