ChatPaper.aiChatPaper

MELLA: Colmare il Divario tra Capacità Linguistica e Radicamento Culturale per MLLM in Lingue a Risorse Limitare

MELLA: Bridging Linguistic Capability and Cultural Groundedness for Low-Resource Language MLLMs

August 7, 2025
Autori: Yufei Gao, Jiaying Fei, Nuo Chen, Ruirui Chen, Guohang Yan, Yunshi Lan, Botian Shi
cs.AI

Abstract

I Modelli Linguistici Multimodali di Grande Dimensione (MLLM) hanno dimostrato prestazioni notevoli nelle lingue ad alta risorsa. Tuttavia, la loro efficacia diminuisce significativamente nei contesti delle lingue a bassa risorsa. Gli attuali metodi di potenziamento multilingue sono spesso limitati alla modalità testuale o si basano esclusivamente sulla traduzione automatica. Sebbene tali approcci aiutino i modelli ad acquisire capacità linguistiche di base e a produrre "descrizioni superficiali", trascurano l'importanza dell'informatività multimodale e del radicamento culturale, entrambi cruciali per servire efficacemente gli utenti di lingue a bassa risorsa. Per colmare questa lacuna, in questo studio identifichiamo due obiettivi significativi per un MLLM veramente efficace nei contesti di lingue a bassa risorsa, ovvero 1) la capacità linguistica e 2) il radicamento culturale, con particolare enfasi sulla consapevolezza culturale. Per raggiungere questi duplici obiettivi, proponiamo una strategia a doppia fonte che guida la raccolta di dati mirati a ciascun obiettivo, utilizzando alt-text nativi del web per la cultura e didascalie generate da MLLM per la linguistica. Come implementazione concreta, introduciamo MELLA, un dataset multimodale e multilingue. I risultati degli esperimenti mostrano che, dopo il fine-tuning su MELLA, si osserva un miglioramento generale delle prestazioni per le otto lingue su vari backbone MLLM, con modelli che producono "descrizioni approfondite". Verifichiamo che i guadagni di prestazione derivano sia dal potenziamento della conoscenza culturale che dal miglioramento delle capacità linguistiche. Il nostro dataset è disponibile all'indirizzo https://opendatalab.com/applyMultilingualCorpus.
English
Multimodal Large Language Models (MLLMs) have shown remarkable performance in high-resource languages. However, their effectiveness diminishes significantly in the contexts of low-resource languages. Current multilingual enhancement methods are often limited to text modality or rely solely on machine translation. While such approaches help models acquire basic linguistic capabilities and produce "thin descriptions", they neglect the importance of multimodal informativeness and cultural groundedness, both of which are crucial for serving low-resource language users effectively. To bridge this gap, in this study, we identify two significant objectives for a truly effective MLLM in low-resource language settings, namely 1) linguistic capability and 2) cultural groundedness, placing special emphasis on cultural awareness. To achieve these dual objectives, we propose a dual-source strategy that guides the collection of data tailored to each goal, sourcing native web alt-text for culture and MLLM-generated captions for linguistics. As a concrete implementation, we introduce MELLA, a multimodal, multilingual dataset. Experiment results show that after fine-tuning on MELLA, there is a general performance improvement for the eight languages on various MLLM backbones, with models producing "thick descriptions". We verify that the performance gains are from both cultural knowledge enhancement and linguistic capability enhancement. Our dataset can be found at https://opendatalab.com/applyMultilingualCorpus.
PDF62August 11, 2025