ChatPaper.aiChatPaper

MELLA: 저자원 언어를 위한 다중언어 대형 언어 모델의 언어 능력과 문화적 토대 간의 간극 해소

MELLA: Bridging Linguistic Capability and Cultural Groundedness for Low-Resource Language MLLMs

August 7, 2025
저자: Yufei Gao, Jiaying Fei, Nuo Chen, Ruirui Chen, Guohang Yan, Yunshi Lan, Botian Shi
cs.AI

초록

다중모드 대형 언어 모델(MLLMs)은 고자원 언어에서 뛰어난 성능을 보여왔습니다. 그러나 저자원 언어 환경에서는 그 효과가 크게 감소합니다. 현재의 다국어 향상 방법들은 주로 텍스트 모달리티에 국한되거나 기계 번역에만 의존하는 경우가 많습니다. 이러한 접근 방식은 모델이 기본적인 언어 능력을 습득하고 "얇은 설명"을 생성하는 데는 도움이 되지만, 저자원 언어 사용자에게 효과적으로 서비스를 제공하기 위해 중요한 다중모드 정보성과 문화적 토대를 간과하고 있습니다. 이러한 격차를 해소하기 위해 본 연구에서는 저자원 언어 환경에서 진정으로 효과적인 MLLM을 위한 두 가지 중요한 목표, 즉 1) 언어 능력과 2) 문화적 토대를 식별하며, 특히 문화적 인식에 중점을 둡니다. 이 두 가지 목표를 달성하기 위해, 우리는 각 목표에 맞춰 데이터를 수집하는 이중 소스 전략을 제안합니다. 문화적 토대를 위해 네이티브 웹 alt-text를, 언어 능력을 위해 MLLM이 생성한 캡션을 소스로 활용합니다. 구체적인 구현으로, 우리는 다중모드 다국어 데이터셋인 MELLA를 소개합니다. 실험 결과, MELLA로 미세 조정한 후 다양한 MLLM 백본에서 8개 언어에 대한 전반적인 성능 향상이 관찰되었으며, 모델이 "두꺼운 설명"을 생성하는 것을 확인했습니다. 우리는 이러한 성능 향상이 문화적 지식 향상과 언어 능력 향상 모두에서 비롯됨을 검증합니다. 우리의 데이터셋은 https://opendatalab.com/applyMultilingualCorpus에서 확인할 수 있습니다.
English
Multimodal Large Language Models (MLLMs) have shown remarkable performance in high-resource languages. However, their effectiveness diminishes significantly in the contexts of low-resource languages. Current multilingual enhancement methods are often limited to text modality or rely solely on machine translation. While such approaches help models acquire basic linguistic capabilities and produce "thin descriptions", they neglect the importance of multimodal informativeness and cultural groundedness, both of which are crucial for serving low-resource language users effectively. To bridge this gap, in this study, we identify two significant objectives for a truly effective MLLM in low-resource language settings, namely 1) linguistic capability and 2) cultural groundedness, placing special emphasis on cultural awareness. To achieve these dual objectives, we propose a dual-source strategy that guides the collection of data tailored to each goal, sourcing native web alt-text for culture and MLLM-generated captions for linguistics. As a concrete implementation, we introduce MELLA, a multimodal, multilingual dataset. Experiment results show that after fine-tuning on MELLA, there is a general performance improvement for the eight languages on various MLLM backbones, with models producing "thick descriptions". We verify that the performance gains are from both cultural knowledge enhancement and linguistic capability enhancement. Our dataset can be found at https://opendatalab.com/applyMultilingualCorpus.
PDF62August 11, 2025