Repenser le pré-entraînement multilingue continu : le mélange de données pour l'adaptation des modèles de langage à grande échelle à travers les langues et les ressources
Rethinking Multilingual Continual Pretraining: Data Mixing for Adapting LLMs Across Languages and Resources
April 5, 2025
Auteurs: Zihao Li, Shaoxiong Ji, Hengyu Luo, Jörg Tiedemann
cs.AI
Résumé
Les grands modèles de langage (LLMs) présentent des disparités significatives de performance entre les langues, bénéficiant principalement aux langues riches en ressources tout en marginalisant celles sous-représentées. Le pré-entraînement continu (CPT) s'est révélé être une approche prometteuse pour remédier à ce déséquilibre, bien que l'efficacité relative des stratégies de données monolingues, bilingues et augmentées par du code reste incertaine. Cette étude évalue systématiquement 36 configurations de CPT impliquant trois modèles de base multilingues, à travers plus de 30 langues catégorisées comme altruistes, égoïstes et stagnantes, couvrant divers niveaux de ressources. Nos résultats révèlent trois principales observations : (1) Le CPT bilingue améliore la classification multilingue mais provoque souvent des problèmes de mélange de langues lors de la génération. (2) L'inclusion de données de code de programmation pendant le CPT améliore systématiquement la précision de la classification multilingue, bénéficiant particulièrement aux langues à faibles ressources, mais introduit un compromis en dégradant légèrement la qualité de la génération. (3) Contrairement aux travaux antérieurs, nous observons des écarts substantiels par rapport aux classifications de langues selon leur impact sur le transfert translinguistique : les langues classées comme altruistes affectent souvent négativement les langues apparentées, les langues égoïstes montrent un comportement conditionnel et dépendant de la configuration, et les langues stagnantes démontrent une adaptabilité surprenante dans certaines conditions de CPT. Ces interactions nuancées soulignent la complexité de l'apprentissage de représentations multilingues, mettant en évidence l'importance d'études systématiques sur la classification généralisable des langues pour éclairer les futures stratégies de CPT multilingues.
English
Large Language Models (LLMs) exhibit significant disparities in performance
across languages, primarily benefiting high-resource languages while
marginalizing underrepresented ones. Continual Pretraining (CPT) has emerged as
a promising approach to address this imbalance, although the relative
effectiveness of monolingual, bilingual, and code-augmented data strategies
remains unclear. This study systematically evaluates 36 CPT configurations
involving three multilingual base models, across 30+ languages categorized as
altruistic, selfish, and stagnant, spanning various resource levels. Our
findings reveal three major insights: (1) Bilingual CPT improves multilingual
classification but often causes language mixing issues during generation. (2)
Including programming code data during CPT consistently enhances multilingual
classification accuracy, particularly benefiting low-resource languages, but
introduces a trade-off by slightly degrading generation quality. (3) Contrary
to prior work, we observe substantial deviations from language classifications
according to their impact on cross-lingual transfer: Languages classified as
altruistic often negatively affect related languages, selfish languages show
conditional and configuration-dependent behavior, and stagnant languages
demonstrate surprising adaptability under certain CPT conditions. These nuanced
interactions emphasize the complexity of multilingual representation learning,
underscoring the importance of systematic studies on generalizable language
classification to inform future multilingual CPT strategies.Summary
AI-Generated Summary