다국어 지속적 사전 학습 재고: 언어와 자원 간 대형 언어 모델 적응을 위한 데이터 혼합
Rethinking Multilingual Continual Pretraining: Data Mixing for Adapting LLMs Across Languages and Resources
April 5, 2025
저자: Zihao Li, Shaoxiong Ji, Hengyu Luo, Jörg Tiedemann
cs.AI
초록
대형 언어 모델(LLMs)은 언어 간 성능에서 상당한 격차를 보이며, 주로 고자원 언어에서 이점을 얻는 반면 저자원 언어는 소외되는 경향이 있습니다. 이러한 불균형을 해결하기 위해 지속적 사전학습(CPT)이 유망한 접근법으로 부상했지만, 단일 언어, 이중 언어 및 코드 보강 데이터 전략의 상대적 효과는 여전히 명확하지 않습니다. 본 연구는 다양한 자원 수준에 걸쳐 이타적, 이기적 및 정체된 범주로 분류된 30개 이상의 언어에 대해 세 가지 다국어 기본 모델을 포함한 36가지 CPT 구성을 체계적으로 평가했습니다. 연구 결과는 다음과 같은 세 가지 주요 통찰을 제공합니다: (1) 이중 언어 CPT는 다국어 분류를 개선하지만, 생성 과정에서 언어 혼합 문제를 자주 유발합니다. (2) CPT 중 프로그래밍 코드 데이터를 포함하면 다국어 분류 정확도가 지속적으로 향상되며, 특히 저자원 언어에 유리하지만, 생성 품질이 약간 저하되는 트레이드오프가 발생합니다. (3) 이전 연구와 달리, 교차 언어 전이에 미치는 영향에 따른 언어 분류에서 상당한 편차를 관찰했습니다: 이타적으로 분류된 언어는 관련 언어에 부정적인 영향을 미치는 경우가 많고, 이기적 언어는 조건 및 구성에 따라 다르게 행동하며, 정체된 언어는 특정 CPT 조건에서 놀라운 적응력을 보입니다. 이러한 미묘한 상호작용은 다국어 표현 학습의 복잡성을 강조하며, 미래의 다국어 CPT 전략을 위한 일반화 가능한 언어 분류에 대한 체계적인 연구의 중요성을 부각시킵니다.
English
Large Language Models (LLMs) exhibit significant disparities in performance
across languages, primarily benefiting high-resource languages while
marginalizing underrepresented ones. Continual Pretraining (CPT) has emerged as
a promising approach to address this imbalance, although the relative
effectiveness of monolingual, bilingual, and code-augmented data strategies
remains unclear. This study systematically evaluates 36 CPT configurations
involving three multilingual base models, across 30+ languages categorized as
altruistic, selfish, and stagnant, spanning various resource levels. Our
findings reveal three major insights: (1) Bilingual CPT improves multilingual
classification but often causes language mixing issues during generation. (2)
Including programming code data during CPT consistently enhances multilingual
classification accuracy, particularly benefiting low-resource languages, but
introduces a trade-off by slightly degrading generation quality. (3) Contrary
to prior work, we observe substantial deviations from language classifications
according to their impact on cross-lingual transfer: Languages classified as
altruistic often negatively affect related languages, selfish languages show
conditional and configuration-dependent behavior, and stagnant languages
demonstrate surprising adaptability under certain CPT conditions. These nuanced
interactions emphasize the complexity of multilingual representation learning,
underscoring the importance of systematic studies on generalizable language
classification to inform future multilingual CPT strategies.Summary
AI-Generated Summary