ChatPaper.aiChatPaper

MELLA : Relier les capacités linguistiques et l'enracinement culturel pour les MLLM dans les langues à faibles ressources

MELLA: Bridging Linguistic Capability and Cultural Groundedness for Low-Resource Language MLLMs

August 7, 2025
papers.authors: Yufei Gao, Jiaying Fei, Nuo Chen, Ruirui Chen, Guohang Yan, Yunshi Lan, Botian Shi
cs.AI

papers.abstract

Les modèles de langage multimodaux de grande taille (MLLMs) ont démontré des performances remarquables dans les langues disposant de ressources abondantes. Cependant, leur efficacité diminue considérablement dans les contextes de langues à ressources limitées. Les méthodes actuelles d'amélioration multilingue se limitent souvent à la modalité textuelle ou reposent uniquement sur la traduction automatique. Bien que ces approches aident les modèles à acquérir des capacités linguistiques de base et à produire des "descriptions superficielles", elles négligent l'importance de l'informativité multimodale et de l'enracinement culturel, deux éléments cruciaux pour servir efficacement les utilisateurs de langues à ressources limitées. Pour combler cette lacune, dans cette étude, nous identifions deux objectifs significatifs pour un MLLM véritablement efficace dans les contextes de langues à ressources limitées, à savoir 1) la capacité linguistique et 2) l'enracinement culturel, en mettant un accent particulier sur la sensibilisation culturelle. Pour atteindre ces deux objectifs, nous proposons une stratégie à double source qui guide la collecte de données adaptées à chaque objectif, en puisant dans les textes alternatifs natifs du web pour la culture et dans les légendes générées par les MLLMs pour la linguistique. En tant qu'implémentation concrète, nous introduisons MELLA, un ensemble de données multimodal et multilingue. Les résultats des expériences montrent qu'après un ajustement fin sur MELLA, il y a une amélioration générale des performances pour les huit langues sur diverses architectures de MLLM, avec des modèles produisant des "descriptions approfondies". Nous vérifions que les gains de performance proviennent à la fois de l'amélioration des connaissances culturelles et de l'amélioration des capacités linguistiques. Notre ensemble de données peut être consulté à l'adresse https://opendatalab.com/applyMultilingualCorpus.
English
Multimodal Large Language Models (MLLMs) have shown remarkable performance in high-resource languages. However, their effectiveness diminishes significantly in the contexts of low-resource languages. Current multilingual enhancement methods are often limited to text modality or rely solely on machine translation. While such approaches help models acquire basic linguistic capabilities and produce "thin descriptions", they neglect the importance of multimodal informativeness and cultural groundedness, both of which are crucial for serving low-resource language users effectively. To bridge this gap, in this study, we identify two significant objectives for a truly effective MLLM in low-resource language settings, namely 1) linguistic capability and 2) cultural groundedness, placing special emphasis on cultural awareness. To achieve these dual objectives, we propose a dual-source strategy that guides the collection of data tailored to each goal, sourcing native web alt-text for culture and MLLM-generated captions for linguistics. As a concrete implementation, we introduce MELLA, a multimodal, multilingual dataset. Experiment results show that after fine-tuning on MELLA, there is a general performance improvement for the eight languages on various MLLM backbones, with models producing "thick descriptions". We verify that the performance gains are from both cultural knowledge enhancement and linguistic capability enhancement. Our dataset can be found at https://opendatalab.com/applyMultilingualCorpus.
PDF62August 11, 2025