MELLA: Uniendo la capacidad lingüística y el arraigo cultural para MLLMs de lenguajes de bajos recursos
MELLA: Bridging Linguistic Capability and Cultural Groundedness for Low-Resource Language MLLMs
August 7, 2025
Autores: Yufei Gao, Jiaying Fei, Nuo Chen, Ruirui Chen, Guohang Yan, Yunshi Lan, Botian Shi
cs.AI
Resumen
Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) han demostrado un rendimiento notable en idiomas con abundantes recursos. Sin embargo, su efectividad disminuye significativamente en contextos de idiomas con recursos limitados. Los métodos actuales de mejora multilingüe a menudo se limitan a la modalidad de texto o dependen exclusivamente de la traducción automática. Si bien estos enfoques ayudan a los modelos a adquirir capacidades lingüísticas básicas y producir "descripciones superficiales", descuidan la importancia de la informatividad multimodal y el arraigo cultural, ambos cruciales para servir eficazmente a los usuarios de idiomas con recursos limitados. Para cerrar esta brecha, en este estudio identificamos dos objetivos significativos para un MLLM verdaderamente efectivo en entornos de idiomas con recursos limitados, a saber: 1) capacidad lingüística y 2) arraigo cultural, con especial énfasis en la conciencia cultural. Para lograr estos objetivos duales, proponemos una estrategia de doble fuente que guía la recopilación de datos adaptados a cada meta, obteniendo texto alternativo nativo de la web para la cultura y subtítulos generados por MLLM para la lingüística. Como una implementación concreta, presentamos MELLA, un conjunto de datos multimodal y multilingüe. Los resultados de los experimentos muestran que, después del ajuste fino en MELLA, se observa una mejora general en el rendimiento para los ocho idiomas en varios modelos base de MLLM, con modelos que producen "descripciones profundas". Verificamos que las mejoras en el rendimiento provienen tanto del enriquecimiento del conocimiento cultural como de la mejora de la capacidad lingüística. Nuestro conjunto de datos se puede encontrar en https://opendatalab.com/applyMultilingualCorpus.
English
Multimodal Large Language Models (MLLMs) have shown remarkable performance in
high-resource languages. However, their effectiveness diminishes significantly
in the contexts of low-resource languages. Current multilingual enhancement
methods are often limited to text modality or rely solely on machine
translation. While such approaches help models acquire basic linguistic
capabilities and produce "thin descriptions", they neglect the importance of
multimodal informativeness and cultural groundedness, both of which are crucial
for serving low-resource language users effectively. To bridge this gap, in
this study, we identify two significant objectives for a truly effective MLLM
in low-resource language settings, namely 1) linguistic capability and 2)
cultural groundedness, placing special emphasis on cultural awareness. To
achieve these dual objectives, we propose a dual-source strategy that guides
the collection of data tailored to each goal, sourcing native web alt-text for
culture and MLLM-generated captions for linguistics. As a concrete
implementation, we introduce MELLA, a multimodal, multilingual dataset.
Experiment results show that after fine-tuning on MELLA, there is a general
performance improvement for the eight languages on various MLLM backbones, with
models producing "thick descriptions". We verify that the performance gains are
from both cultural knowledge enhancement and linguistic capability enhancement.
Our dataset can be found at https://opendatalab.com/applyMultilingualCorpus.