ChatPaper.aiChatPaper

MELLA: Überbrückung von Sprachfähigkeit und kultureller Verankerung für MLLMs in ressourcenarmen Sprachen

MELLA: Bridging Linguistic Capability and Cultural Groundedness for Low-Resource Language MLLMs

August 7, 2025
papers.authors: Yufei Gao, Jiaying Fei, Nuo Chen, Ruirui Chen, Guohang Yan, Yunshi Lan, Botian Shi
cs.AI

papers.abstract

Multimodale Large Language Models (MLLMs) haben bemerkenswerte Leistungen in ressourcenstarken Sprachen gezeigt. Ihre Effektivität nimmt jedoch in Kontexten mit ressourcenarmen Sprachen erheblich ab. Aktuelle Methoden zur mehrsprachigen Verbesserung beschränken sich oft auf die Textmodalität oder verlassen sich ausschließlich auf maschinelle Übersetzung. Obwohl solche Ansätze den Modellen grundlegende sprachliche Fähigkeiten vermitteln und „dünne Beschreibungen“ erzeugen, vernachlässigen sie die Bedeutung multimodaler Informativität und kultureller Verankerung, die beide entscheidend sind, um Nutzer ressourcenarmer Sprachen effektiv zu bedienen. Um diese Lücke zu schließen, identifizieren wir in dieser Studie zwei wesentliche Ziele für einen wirklich effektiven MLLM in ressourcenarmen Sprachumgebungen, nämlich 1) sprachliche Fähigkeiten und 2) kulturelle Verankerung, mit besonderem Schwerpunkt auf kulturellem Bewusstsein. Um diese doppelten Ziele zu erreichen, schlagen wir eine Dual-Source-Strategie vor, die die Sammlung von Daten leitet, die auf jedes Ziel zugeschnitten sind, indem wir native Web-Alt-Texte für die Kultur und MLLM-generierte Beschreibungen für die Sprachwissenschaft nutzen. Als konkrete Implementierung stellen wir MELLA vor, einen multimodalen, mehrsprachigen Datensatz. Experimentelle Ergebnisse zeigen, dass nach dem Fine-Tuning auf MELLA eine allgemeine Leistungssteigerung für die acht Sprachen auf verschiedenen MLLM-Backbones zu verzeichnen ist, wobei die Modelle „dichte Beschreibungen“ erzeugen. Wir bestätigen, dass die Leistungssteigerungen sowohl auf der Verbesserung des kulturellen Wissens als auch der sprachlichen Fähigkeiten beruhen. Unser Datensatz ist unter https://opendatalab.com/applyMultilingualCorpus verfügbar.
English
Multimodal Large Language Models (MLLMs) have shown remarkable performance in high-resource languages. However, their effectiveness diminishes significantly in the contexts of low-resource languages. Current multilingual enhancement methods are often limited to text modality or rely solely on machine translation. While such approaches help models acquire basic linguistic capabilities and produce "thin descriptions", they neglect the importance of multimodal informativeness and cultural groundedness, both of which are crucial for serving low-resource language users effectively. To bridge this gap, in this study, we identify two significant objectives for a truly effective MLLM in low-resource language settings, namely 1) linguistic capability and 2) cultural groundedness, placing special emphasis on cultural awareness. To achieve these dual objectives, we propose a dual-source strategy that guides the collection of data tailored to each goal, sourcing native web alt-text for culture and MLLM-generated captions for linguistics. As a concrete implementation, we introduce MELLA, a multimodal, multilingual dataset. Experiment results show that after fine-tuning on MELLA, there is a general performance improvement for the eight languages on various MLLM backbones, with models producing "thick descriptions". We verify that the performance gains are from both cultural knowledge enhancement and linguistic capability enhancement. Our dataset can be found at https://opendatalab.com/applyMultilingualCorpus.
PDF62August 11, 2025