Repenser le pré-entraînement multilingue continu : le mélange de données pour l'adaptation des modèles de langage à grande échelle à travers les langues et les ressources

papers.abstract

Les grands modèles de langage (LLMs) présentent des disparités significatives de performance entre les langues, bénéficiant principalement aux langues riches en ressources tout en marginalisant celles sous-représentées. Le pré-entraînement continu (CPT) s'est révélé être une approche prometteuse pour remédier à ce déséquilibre, bien que l'efficacité relative des stratégies de données monolingues, bilingues et augmentées par du code reste incertaine. Cette étude évalue systématiquement 36 configurations de CPT impliquant trois modèles de base multilingues, à travers plus de 30 langues catégorisées comme altruistes, égoïstes et stagnantes, couvrant divers niveaux de ressources. Nos résultats révèlent trois principales observations : (1) Le CPT bilingue améliore la classification multilingue mais provoque souvent des problèmes de mélange de langues lors de la génération. (2) L'inclusion de données de code de programmation pendant le CPT améliore systématiquement la précision de la classification multilingue, bénéficiant particulièrement aux langues à faibles ressources, mais introduit un compromis en dégradant légèrement la qualité de la génération. (3) Contrairement aux travaux antérieurs, nous observons des écarts substantiels par rapport aux classifications de langues selon leur impact sur le transfert translinguistique : les langues classées comme altruistes affectent souvent négativement les langues apparentées, les langues égoïstes montrent un comportement conditionnel et dépendant de la configuration, et les langues stagnantes démontrent une adaptabilité surprenante dans certaines conditions de CPT. Ces interactions nuancées soulignent la complexité de l'apprentissage de représentations multilingues, mettant en évidence l'importance d'études systématiques sur la classification généralisable des langues pour éclairer les futures stratégies de CPT multilingues.

English

Large Language Models (LLMs) exhibit significant disparities in performance across languages, primarily benefiting high-resource languages while marginalizing underrepresented ones. Continual Pretraining (CPT) has emerged as a promising approach to address this imbalance, although the relative effectiveness of monolingual, bilingual, and code-augmented data strategies remains unclear. This study systematically evaluates 36 CPT configurations involving three multilingual base models, across 30+ languages categorized as altruistic, selfish, and stagnant, spanning various resource levels. Our findings reveal three major insights: (1) Bilingual CPT improves multilingual classification but often causes language mixing issues during generation. (2) Including programming code data during CPT consistently enhances multilingual classification accuracy, particularly benefiting low-resource languages, but introduces a trade-off by slightly degrading generation quality. (3) Contrary to prior work, we observe substantial deviations from language classifications according to their impact on cross-lingual transfer: Languages classified as altruistic often negatively affect related languages, selfish languages show conditional and configuration-dependent behavior, and stagnant languages demonstrate surprising adaptability under certain CPT conditions. These nuanced interactions emphasize the complexity of multilingual representation learning, underscoring the importance of systematic studies on generalizable language classification to inform future multilingual CPT strategies.

Repenser le pré-entraînement multilingue continu : le mélange de données pour l'adaptation des modèles de langage à grande échelle à travers les langues et les ressources

Rethinking Multilingual Continual Pretraining: Data Mixing for Adapting LLMs Across Languages and Resources

papers.abstract

Support