COMPASS: КОнтинуальная Мультиязычная PEFT с Адаптивной Семантической Выборкой

Аннотация

Крупные языковые модели (LLM) часто демонстрируют различия в производительности для разных языков, причем наивная многоязычная донастройка часто ухудшает результаты из-за негативного межъязыкового вмешательства. Для решения этой проблемы мы представляем COMPASS (COntinual Multilingual PEFT with Adaptive Semantic Sampling) — новую ориентированную на данные структуру для адаптации LLM к целевым языкам. COMPASS использует параметрически-эффективную донастройку (PEFT), обучая облегченные языково-специфичные адаптеры на тщательно отобранном подмножестве вспомогательных многоязычных данных. Основой нашего метода является стратегия семплирования, учитывающая распределение данных, которая использует многоязычные эмбеддинги и кластеризацию для выявления семантических разрывов между существующими обучающими данными и целевым распределением использования. Путем приоритизации вспомогательных данных из недостаточно представленных семантических кластеров COMPASS максимизирует позитивный межъязыковой перенос, минимизируя при этом интерференцию. Мы расширяем этот подход до структуры непрерывного обучения COMPASS-ECDA, которая отслеживает сдвиги в распределении данных в продакшене и динамически обновляет адаптеры для предотвращения устаревания модели, балансируя адаптацию к новым данным с сохранением существующих знаний. На трех различных архитектурах моделей (Phi-4-Mini, Llama-3.1-8B и Qwen2.5-7B) и нескольких сложных многоязычных бенчмарках (Global-MMLU, MMLU-ProX), включая задачи с длинным контекстом, не встречавшиеся при обучении (OneRuler), мы демонстрируем, что COMPASS стабильно превосходит базовые методы, основанные на лингвистическом сходстве, предлагая эффективное, экономичное и устойчивое решение для разработки и поддержания высокопроизводительных многоязычных моделей в динамичных средах.

English

Large language models (LLMs) often exhibit performance disparities across languages, with naive multilingual fine-tuning frequently degrading performance due to negative cross-lingual interference. To address this, we introduce COMPASS (COntinual Multilingual PEFT with Adaptive Semantic Sampling), a novel data-centric framework for adapting LLMs to target languages. COMPASS leverages parameter-efficient fine-tuning (PEFT) by training lightweight, language-specific adapters on a judiciously selected subset of auxiliary multilingual data. The core of our method is a distribution-aware sampling strategy that uses multilingual embeddings and clustering to identify semantic gaps between existing training data and a target usage distribution. By prioritizing auxiliary data from under-represented semantic clusters, COMPASS maximizes positive cross-lingual transfer while minimizing interference. We extend this into a continual learning framework, COMPASS-ECDA, which monitors for data distribution shifts in production and dynamically updates adapters to prevent model staleness, balancing adaptation to new data with the preservation of existing knowledge. Across three different model architectures (Phi-4-Mini, Llama-3.1-8B, and Qwen2.5-7B) and multiple challenging multilingual benchmarks (Global-MMLU, MMLU-ProX), including unseen long-context tasks (OneRuler), we demonstrate that COMPASS consistently outperforms baseline methods guided by linguistic similarity, providing an effective, efficient, and sustainable solution for developing and maintaining high-performing multilingual models in dynamic environments.

COMPASS: КОнтинуальная Мультиязычная PEFT с Адаптивной Семантической Выборкой

COMPASS: COntinual Multilingual PEFT with Adaptive Semantic Sampling

Аннотация

Support