ChatPaper.aiChatPaper

多言語継続事前学習の再考:言語とリソースを跨るLLM適応のためのデータ混合

Rethinking Multilingual Continual Pretraining: Data Mixing for Adapting LLMs Across Languages and Resources

April 5, 2025
著者: Zihao Li, Shaoxiong Ji, Hengyu Luo, Jörg Tiedemann
cs.AI

要旨

大規模言語モデル(LLM)は、言語間で性能に大きな差を示し、主に高リソース言語を優遇する一方で、十分に表現されていない言語を疎外する傾向があります。この不均衡を解消する有望なアプローチとして、継続的事前学習(CPT)が注目されていますが、単一言語、二言語、およびコード拡張データ戦略の相対的な有効性は依然として不明確です。本研究では、3つの多言語ベースモデルを用いた36のCPT構成を、30以上の言語(利他的、利己的、停滞的のカテゴリに分類)にわたって体系的に評価し、さまざまなリソースレベルを網羅しました。その結果、以下の3つの主要な知見が得られました:(1)二言語CPTは多言語分類を改善しますが、生成時に言語混合の問題を引き起こすことが多い。(2)CPT中にプログラミングコードデータを含めることで、特に低リソース言語にとって多言語分類精度が一貫して向上しますが、生成品質がわずかに低下するトレードオフが生じる。(3)先行研究とは異なり、言語分類が相互言語転移への影響において大幅に逸脱していることが観察されました:利他的と分類された言語は関連言語に悪影響を及ぼすことが多く、利己的言語は条件や構成に依存した振る舞いを示し、停滞的言語は特定のCPT条件下で驚くほどの適応性を示しました。これらの微妙な相互作用は、多言語表現学習の複雑さを強調し、将来の多言語CPT戦略を導くための汎用的な言語分類に関する体系的な研究の重要性を浮き彫りにしています。
English
Large Language Models (LLMs) exhibit significant disparities in performance across languages, primarily benefiting high-resource languages while marginalizing underrepresented ones. Continual Pretraining (CPT) has emerged as a promising approach to address this imbalance, although the relative effectiveness of monolingual, bilingual, and code-augmented data strategies remains unclear. This study systematically evaluates 36 CPT configurations involving three multilingual base models, across 30+ languages categorized as altruistic, selfish, and stagnant, spanning various resource levels. Our findings reveal three major insights: (1) Bilingual CPT improves multilingual classification but often causes language mixing issues during generation. (2) Including programming code data during CPT consistently enhances multilingual classification accuracy, particularly benefiting low-resource languages, but introduces a trade-off by slightly degrading generation quality. (3) Contrary to prior work, we observe substantial deviations from language classifications according to their impact on cross-lingual transfer: Languages classified as altruistic often negatively affect related languages, selfish languages show conditional and configuration-dependent behavior, and stagnant languages demonstrate surprising adaptability under certain CPT conditions. These nuanced interactions emphasize the complexity of multilingual representation learning, underscoring the importance of systematic studies on generalizable language classification to inform future multilingual CPT strategies.

Summary

AI-Generated Summary

PDF12April 8, 2025