Replanteamiento del Pretrenamiento Continuo Multilingüe: Mezcla de Datos para la Adaptación de Modelos de Lenguaje a Través de Idiomas y Recursos
Rethinking Multilingual Continual Pretraining: Data Mixing for Adapting LLMs Across Languages and Resources
April 5, 2025
Autores: Zihao Li, Shaoxiong Ji, Hengyu Luo, Jörg Tiedemann
cs.AI
Resumen
Los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) exhiben disparidades significativas en su rendimiento entre idiomas, beneficiando principalmente a los idiomas de alto recurso mientras marginan a los subrepresentados. El Pretrenamiento Continuo (CPT, por sus siglas en inglés) ha surgido como un enfoque prometedor para abordar este desequilibrio, aunque la efectividad relativa de las estrategias de datos monolingües, bilingües y aumentados con código sigue siendo poco clara. Este estudio evalúa sistemáticamente 36 configuraciones de CPT que involucran tres modelos base multilingües, en más de 30 idiomas categorizados como altruistas, egoístas y estancados, abarcando diversos niveles de recursos. Nuestros hallazgos revelan tres insights principales: (1) El CPT bilingüe mejora la clasificación multilingüe, pero a menudo causa problemas de mezcla de idiomas durante la generación. (2) Incluir datos de código de programación durante el CPT mejora consistentemente la precisión en la clasificación multilingüe, beneficiando particularmente a los idiomas de bajo recurso, pero introduce una compensación al degradar ligeramente la calidad de la generación. (3) Contrario a trabajos previos, observamos desviaciones sustanciales en las clasificaciones de idiomas según su impacto en la transferencia cruzada de idiomas: los idiomas clasificados como altruistas a menudo afectan negativamente a idiomas relacionados, los idiomas egoístas muestran un comportamiento condicional y dependiente de la configuración, y los idiomas estancados demuestran una adaptabilidad sorprendente bajo ciertas condiciones de CPT. Estas interacciones matizadas enfatizan la complejidad del aprendizaje de representaciones multilingües, destacando la importancia de estudios sistemáticos sobre clasificaciones de idiomas generalizables para informar futuras estrategias de CPT multilingüe.
English
Large Language Models (LLMs) exhibit significant disparities in performance
across languages, primarily benefiting high-resource languages while
marginalizing underrepresented ones. Continual Pretraining (CPT) has emerged as
a promising approach to address this imbalance, although the relative
effectiveness of monolingual, bilingual, and code-augmented data strategies
remains unclear. This study systematically evaluates 36 CPT configurations
involving three multilingual base models, across 30+ languages categorized as
altruistic, selfish, and stagnant, spanning various resource levels. Our
findings reveal three major insights: (1) Bilingual CPT improves multilingual
classification but often causes language mixing issues during generation. (2)
Including programming code data during CPT consistently enhances multilingual
classification accuracy, particularly benefiting low-resource languages, but
introduces a trade-off by slightly degrading generation quality. (3) Contrary
to prior work, we observe substantial deviations from language classifications
according to their impact on cross-lingual transfer: Languages classified as
altruistic often negatively affect related languages, selfish languages show
conditional and configuration-dependent behavior, and stagnant languages
demonstrate surprising adaptability under certain CPT conditions. These nuanced
interactions emphasize the complexity of multilingual representation learning,
underscoring the importance of systematic studies on generalizable language
classification to inform future multilingual CPT strategies.Summary
AI-Generated Summary