COMPASS: 適応的意味サンプリングによる継続的多言語PEFT
COMPASS: COntinual Multilingual PEFT with Adaptive Semantic Sampling
April 22, 2026
著者: Noah Flynn
cs.AI
要旨
大規模言語モデル(LLM)は、言語間で性能のばらつきを示すことが多く、単純な多言語ファインチューニングでは、負の言語間干渉により性能が低下しがちである。この問題に対処するため、本論文ではLLMを対象言語に適応させるための新しいデータ中心フレームワークであるCOMPASS(COntinual Multilingual PEFT with Adaptive Semantic Sampling)を提案する。COMPASSは、パラメータ効率型ファインチューニング(PEFT)を活用し、補助的多言語データから慎重に選別されたサブセットに対して、軽量な言語固有アダプタを学習する。本手法の中核は、既存の学習データと対象利用分布との間の意味的ギャップを特定するために、多言語埋め込みとクラスタリングを用いた分布を考慮したサンプリング戦略である。COMPASSは、代表性の低い意味的クラスターからの補助データを優先的に選択することで、正の言語間転移を最大化し、干渉を最小限に抑える。さらに、本フレームワークを継続学習フレームワークであるCOMPASS-ECDAへと拡張する。これは、本番環境におけるデータ分布の変化を監視し、モデルの陳腐化を防ぐためにアダプタを動的に更新し、新規データへの適応と既存知識の保持のバランスを取るものである。3つの異なるモデルアーキテクチャ(Phi-4-Mini、Llama-3.1-8B、Qwen2.5-7B)と、未見の長文タスク(OneRuler)を含む複数の挑戦的な多言語ベンチマーク(Global-MMLU、MMLU-ProX)において、COMPASSが言語的類似性に基づくベースライン手法を一貫して上回ることを実証し、動的環境において高性能な多言語モデルを開発・維持するための効果的、効率的、かつ持続可能なソリューションを提供する。
English
Large language models (LLMs) often exhibit performance disparities across languages, with naive multilingual fine-tuning frequently degrading performance due to negative cross-lingual interference. To address this, we introduce COMPASS (COntinual Multilingual PEFT with Adaptive Semantic Sampling), a novel data-centric framework for adapting LLMs to target languages. COMPASS leverages parameter-efficient fine-tuning (PEFT) by training lightweight, language-specific adapters on a judiciously selected subset of auxiliary multilingual data. The core of our method is a distribution-aware sampling strategy that uses multilingual embeddings and clustering to identify semantic gaps between existing training data and a target usage distribution. By prioritizing auxiliary data from under-represented semantic clusters, COMPASS maximizes positive cross-lingual transfer while minimizing interference. We extend this into a continual learning framework, COMPASS-ECDA, which monitors for data distribution shifts in production and dynamically updates adapters to prevent model staleness, balancing adaptation to new data with the preservation of existing knowledge. Across three different model architectures (Phi-4-Mini, Llama-3.1-8B, and Qwen2.5-7B) and multiple challenging multilingual benchmarks (Global-MMLU, MMLU-ProX), including unseen long-context tasks (OneRuler), we demonstrate that COMPASS consistently outperforms baseline methods guided by linguistic similarity, providing an effective, efficient, and sustainable solution for developing and maintaining high-performing multilingual models in dynamic environments.