COMPASS : Apprentissage Continu Multilingue avec Paramètres Efficaces et Échantillonnage Sémantique Adaptatif

Résumé

Les grands modèles de langage (LLM) présentent souvent des disparités de performance entre les langues, un réglage fin multilingue naïf dégradant fréquemment les performances en raison d'interférences translinguistiques négatives. Pour résoudre ce problème, nous présentons COMPASS (COntinual Multilingual PEFT with Adaptive Semantic Sampling), un nouveau cadre centré sur les données pour adapter les LLM aux langues cibles. COMPASS exploite le réglage fin efficace en paramètres (PEFT) en entraînant des adaptateurs légers, spécifiques à chaque langue, sur un sous-ensemble judicieusement sélectionné de données multilingues auxiliaires. Le cœur de notre méthode est une stratégie d'échantillonnage sensible à la distribution qui utilise des embeddings multilingues et du clustering pour identifier les écarts sémantiques entre les données d'entraînement existantes et une distribution d'utilisation cible. En priorisant les données auxiliaires provenant de clusters sémantiques sous-représentés, COMPASS maximise le transfert translinguistique positif tout en minimisant les interférences. Nous étendons cela en un cadre d'apprentissage continu, COMPASS-ECDA, qui surveille les dérives de distribution des données en production et met à jour dynamiquement les adaptateurs pour prévenir l'obsolescence du modèle, en équilibrant l'adaptation aux nouvelles données avec la préservation des connaissances existantes. Sur trois architectures de modèles différentes (Phi-4-Mini, Llama-3.1-8B et Qwen2.5-7B) et plusieurs benchmarks multilingues exigeants (Global-MMLU, MMLU-ProX), incluant des tâches inédites à contexte long (OneRuler), nous démontrons que COMPASS surpasse constamment les méthodes de référence guidées par la similarité linguistique, offrant une solution efficace, efficiente et durable pour développer et maintenir des modèles multilingues performants dans des environnements dynamiques.

English

Large language models (LLMs) often exhibit performance disparities across languages, with naive multilingual fine-tuning frequently degrading performance due to negative cross-lingual interference. To address this, we introduce COMPASS (COntinual Multilingual PEFT with Adaptive Semantic Sampling), a novel data-centric framework for adapting LLMs to target languages. COMPASS leverages parameter-efficient fine-tuning (PEFT) by training lightweight, language-specific adapters on a judiciously selected subset of auxiliary multilingual data. The core of our method is a distribution-aware sampling strategy that uses multilingual embeddings and clustering to identify semantic gaps between existing training data and a target usage distribution. By prioritizing auxiliary data from under-represented semantic clusters, COMPASS maximizes positive cross-lingual transfer while minimizing interference. We extend this into a continual learning framework, COMPASS-ECDA, which monitors for data distribution shifts in production and dynamically updates adapters to prevent model staleness, balancing adaptation to new data with the preservation of existing knowledge. Across three different model architectures (Phi-4-Mini, Llama-3.1-8B, and Qwen2.5-7B) and multiple challenging multilingual benchmarks (Global-MMLU, MMLU-ProX), including unseen long-context tasks (OneRuler), we demonstrate that COMPASS consistently outperforms baseline methods guided by linguistic similarity, providing an effective, efficient, and sustainable solution for developing and maintaining high-performing multilingual models in dynamic environments.

COMPASS : Apprentissage Continu Multilingue avec Paramètres Efficaces et Échantillonnage Sémantique Adaptatif

COMPASS: COntinual Multilingual PEFT with Adaptive Semantic Sampling

Résumé

Support