COMPASS: Kontinuierliches mehrsprachiges PEFT mit adaptivem semantischem Sampling

Zusammenfassung

Große Sprachmodelle (LLMs) zeigen oft Leistungsunterschiede zwischen verschiedenen Sprachen, wobei naive multilinguale Feinabstimmung die Leistung aufgrund negativer sprachübergreifender Interferenz häufig verschlechtert. Um dieses Problem zu adressieren, führen wir COMPASS (COntinual Multilingual PEFT with Adaptive Semantic Sampling) ein, einen neuartigen datenzentrierten Rahmen zur Anpassung von LLMs an Zielsprachen. COMPASS nutzt parameter-effiziente Feinabstimmung (PEFT), indem leichtgewichtige, sprachspezifische Adapter auf einer sorgfältig ausgewählten Teilmenge von Hilfsdaten trainiert werden. Der Kern unserer Methode ist eine verteilungsbewusste Sampling-Strategie, die multilinguale Einbettungen und Clustering nutzt, um semantische Lücken zwischen vorhandenen Trainingsdaten und einer Zielverteilung für den Einsatz zu identifizieren. Indem priorisiert Hilfsdaten aus unterrepräsentierten semantischen Clustern ausgewählt werden, maximiert COMPASS den positiven sprachübergreifenden Transfer und minimiert gleichzeitig Interferenzen. Wir erweitern dies zu einem kontinuierlichen Lernframework, COMPASS-ECDA, das Verschiebungen in der Datenverteilung im Produktivbetrieb überwacht und Adapter dynamisch aktualisiert, um Modellveralterung zu verhindern. Dies balanciert die Anpassung an neue Daten mit dem Erhalt vorhandenen Wissens. Über drei verschiedene Modellarchitekturen (Phi-4-Mini, Llama-3.1-8B und Qwen2.5-7B) und mehrere anspruchsvolle multilinguale Benchmarks (Global-MMLU, MMLU-ProX) hinweg, einschließlich ungesehener Langkontext-Aufgaben (OneRuler), demonstrieren wir, dass COMPASS konsistent Baseline-Methoden, die von linguistischer Ähnlichkeit geleitet werden, übertrifft. Es bietet somit eine effektive, effiziente und nachhaltige Lösung für die Entwicklung und Wartung hochleistungsfähiger multilingualer Modelle in dynamischen Umgebungen.

English

Large language models (LLMs) often exhibit performance disparities across languages, with naive multilingual fine-tuning frequently degrading performance due to negative cross-lingual interference. To address this, we introduce COMPASS (COntinual Multilingual PEFT with Adaptive Semantic Sampling), a novel data-centric framework for adapting LLMs to target languages. COMPASS leverages parameter-efficient fine-tuning (PEFT) by training lightweight, language-specific adapters on a judiciously selected subset of auxiliary multilingual data. The core of our method is a distribution-aware sampling strategy that uses multilingual embeddings and clustering to identify semantic gaps between existing training data and a target usage distribution. By prioritizing auxiliary data from under-represented semantic clusters, COMPASS maximizes positive cross-lingual transfer while minimizing interference. We extend this into a continual learning framework, COMPASS-ECDA, which monitors for data distribution shifts in production and dynamically updates adapters to prevent model staleness, balancing adaptation to new data with the preservation of existing knowledge. Across three different model architectures (Phi-4-Mini, Llama-3.1-8B, and Qwen2.5-7B) and multiple challenging multilingual benchmarks (Global-MMLU, MMLU-ProX), including unseen long-context tasks (OneRuler), we demonstrate that COMPASS consistently outperforms baseline methods guided by linguistic similarity, providing an effective, efficient, and sustainable solution for developing and maintaining high-performing multilingual models in dynamic environments.

COMPASS: Kontinuierliches mehrsprachiges PEFT mit adaptivem semantischem Sampling

COMPASS: COntinual Multilingual PEFT with Adaptive Semantic Sampling

Zusammenfassung

Support