COMPASS: Continueel Multilingual PEFT met Adaptieve Semantische Steekproefname

Samenvatting

Grote taalmodellen (LLM's) vertonen vaak prestatieverschillen tussen talen, waarbij naïeve meertalige fine-tuning de prestaties veelal verslechtert als gevolg van negatieve cross-linguale interferentie. Om dit aan te pakken, introduceren wij COMPASS (COntinual Multilingual PEFT with Adaptive Semantic Sampling), een nieuw data-gecentreerd raamwerk voor het aanpassen van LLM's aan doeltalen. COMPASS benut parameter-efficiënte fine-tuning (PEFT) door lichtgewicht, taalspecifieke adapters te trainen op een zorgvuldig geselecteerde subset van aanvullende meertalige data. De kern van onze methode is een distributiebewuste samplingstrategie die meertalige embeddings en clustering gebruikt om semantische hiaten te identificeren tussen bestaande trainingsdata en een doelgebruiksdistributie. Door prioriteit te geven aan aanvullende data uit ondervertegenwoordigde semantische clusters, maximaliseert COMPASS positieve cross-linguale transfer terwijl interferentie wordt geminimaliseerd. Wij breiden dit uit tot een continu leerraamwerk, COMPASS-ECDA, dat shifts in de datadistributie tijdens productie monitort en adapters dynamisch bijwerkt om modelveroudering te voorkomen, waarbij adaptatie aan nieuwe data wordt afgewogen tegen het behoud van bestaande kennis. Over drie verschillende modelarchitecturen (Phi-4-Mini, Llama-3.1-8B en Qwen2.5-7B) en meerdere uitdagende meertalige benchmarks (Global-MMLU, MMLU-ProX), inclusief onbekende lange-contexttaken (OneRuler), tonen wij aan dat COMPASS consistent beter presteert dan baseline-methoden die door linguïstische similariteit worden geleid. Het biedt daarmee een effectieve, efficiënte en duurzame oplossing voor het ontwikkelen en onderhouden van hoogpresterende meertalige modellen in dynamische omgevingen.

English

Large language models (LLMs) often exhibit performance disparities across languages, with naive multilingual fine-tuning frequently degrading performance due to negative cross-lingual interference. To address this, we introduce COMPASS (COntinual Multilingual PEFT with Adaptive Semantic Sampling), a novel data-centric framework for adapting LLMs to target languages. COMPASS leverages parameter-efficient fine-tuning (PEFT) by training lightweight, language-specific adapters on a judiciously selected subset of auxiliary multilingual data. The core of our method is a distribution-aware sampling strategy that uses multilingual embeddings and clustering to identify semantic gaps between existing training data and a target usage distribution. By prioritizing auxiliary data from under-represented semantic clusters, COMPASS maximizes positive cross-lingual transfer while minimizing interference. We extend this into a continual learning framework, COMPASS-ECDA, which monitors for data distribution shifts in production and dynamically updates adapters to prevent model staleness, balancing adaptation to new data with the preservation of existing knowledge. Across three different model architectures (Phi-4-Mini, Llama-3.1-8B, and Qwen2.5-7B) and multiple challenging multilingual benchmarks (Global-MMLU, MMLU-ProX), including unseen long-context tasks (OneRuler), we demonstrate that COMPASS consistently outperforms baseline methods guided by linguistic similarity, providing an effective, efficient, and sustainable solution for developing and maintaining high-performing multilingual models in dynamic environments.

COMPASS: Continueel Multilingual PEFT met Adaptieve Semantische Steekproefname

COMPASS: COntinual Multilingual PEFT with Adaptive Semantic Sampling

Samenvatting

Support