ChatPaper.aiChatPaper

MELLA: 低リソース言語向け多言語大規模言語モデルの言語能力と文化的基盤を橋渡す

MELLA: Bridging Linguistic Capability and Cultural Groundedness for Low-Resource Language MLLMs

August 7, 2025
著者: Yufei Gao, Jiaying Fei, Nuo Chen, Ruirui Chen, Guohang Yan, Yunshi Lan, Botian Shi
cs.AI

要旨

マルチモーダル大規模言語モデル(MLLM)は、高リソース言語において顕著な性能を示しています。しかし、低リソース言語の文脈ではその有効性が大幅に低下します。現在の多言語強化手法は、テキストモダリティに限定されるか、機械翻訳に依存する場合がほとんどです。このようなアプローチは、モデルが基本的な言語能力を獲得し、「薄い記述」を生成するのに役立ちますが、マルチモーダルな情報量と文化的基盤の重要性を無視しています。これらは、低リソース言語のユーザーに効果的にサービスを提供するために不可欠です。このギャップを埋めるため、本研究では、低リソース言語設定において真に効果的なMLLMのための2つの重要な目標、すなわち1)言語能力と2)文化的基盤を特定し、特に文化的意識に重点を置いています。これらの二重の目標を達成するために、各目標に合わせてデータを収集するデュアルソース戦略を提案します。文化についてはネイティブのウェブaltテキストを、言語学についてはMLLMが生成したキャプションをソースとします。具体的な実装として、マルチモーダルで多言語のデータセットであるMELLAを紹介します。実験結果は、MELLAでファインチューニングした後、さまざまなMLLMバックボーンにおいて8つの言語で全般的な性能向上が見られ、モデルが「厚い記述」を生成することを示しています。性能向上が文化的知識の強化と言語能力の強化の両方に起因することを検証します。私たちのデータセットはhttps://opendatalab.com/applyMultilingualCorpusで見つけることができます。
English
Multimodal Large Language Models (MLLMs) have shown remarkable performance in high-resource languages. However, their effectiveness diminishes significantly in the contexts of low-resource languages. Current multilingual enhancement methods are often limited to text modality or rely solely on machine translation. While such approaches help models acquire basic linguistic capabilities and produce "thin descriptions", they neglect the importance of multimodal informativeness and cultural groundedness, both of which are crucial for serving low-resource language users effectively. To bridge this gap, in this study, we identify two significant objectives for a truly effective MLLM in low-resource language settings, namely 1) linguistic capability and 2) cultural groundedness, placing special emphasis on cultural awareness. To achieve these dual objectives, we propose a dual-source strategy that guides the collection of data tailored to each goal, sourcing native web alt-text for culture and MLLM-generated captions for linguistics. As a concrete implementation, we introduce MELLA, a multimodal, multilingual dataset. Experiment results show that after fine-tuning on MELLA, there is a general performance improvement for the eight languages on various MLLM backbones, with models producing "thick descriptions". We verify that the performance gains are from both cultural knowledge enhancement and linguistic capability enhancement. Our dataset can be found at https://opendatalab.com/applyMultilingualCorpus.
PDF62August 11, 2025