Адаптация многоязычных моделей встраивания к турецкому языку с помощью межъязыковой хирургии токенизатора и офлайн-дистилляции
Adapting Multilingual Embedding Models to Turkish via Cross-Lingual Tokenizer Surgery and Offline Distillation
May 28, 2026
Авторы: M. Ali Bayram, Banu Diri, Savaş Yıldırım
cs.AI
Аннотация
Вложения предложений являются фундаментальным компонентом для семантического поиска, кластеризации, классификации и генерации с дополнением извлечением. В данной работе представлена модель вложений предложений embeddingmagibu-200m, ориентированная на турецкий язык, которая генерирует 768-мерные L2-нормализованные векторы и поддерживает окно контекста в 8192 токена, значительно превышая ограничение в 512 токенов, характерное для более ранних кодировщиков турецкого языка на основе BERT. Вместо полного предобучения предлагается эффективный трехэтапный конвейер адаптации: (1) создание оптимизированного для турецкого языка многоязычного токенизатора со словарём объёмом 131072 путём удаления избыточных токенов из словаря учителя и включения многоязычных токенов на основе частотного анализа корпуса на 40 языках; (2) клонирование модели вложений учителя с сохранением весов трансформерного бэкбона и инициализацией совместимой таблицы вложений для нового словаря посредством отображения токенов на основе среднего состава; (3) автономная дистилляция вложений из предварительно вычисленных векторов учителя с использованием целевой функции косинусного сходства на сбалансированном корпусе Википедии на 40 языках. Полученная модель ученика содержит примерно 200 миллионов параметров и обучается примерно за четыре часа на одном графическом процессоре благодаря отсутствию необходимости в инференсе учителя в реальном времени во время обучения, при общей стоимости 5–20 долларов. Эмпирически получены корреляции Пирсона/Спирмена 77,55%/77,45% на STSbTR, превосходящие модель учителя с 300 миллионами параметров (73,84%/72,92%). На TR-MTEB (26 задач) достигнут средний балл 63,9% (7-е место среди 26 моделей), что обеспечивает конкурентоспособный компромисс между стоимостью и качеством при количестве параметров на 33% меньше, чем у учителя. Для обеспечения воспроизводимости и последующего использования опубликованы все артефакты, включая веса моделей, файлы токенизатора, предварительно вычисленные наборы данных вложений, а также инструменты с открытым исходным кодом для клонирования и дистилляции.
English
Sentence embeddings are a foundational component for semantic search, clustering, classification, and retrieval-augmented generation. This paper presents embeddingmagibu-200m, a Turkish-focused sentence embedding model that produces 768-dimensional L2-normalized vectors and supports an 8,192-token context window, far exceeding the 512-token limit of earlier BERT-based Turkish encoders. Instead of full pretraining, an efficient three-stage adaptation pipeline is introduced: (1) construct a Turkish-optimized multilingual tokenizer with a 131,072 vocabulary by pruning redundant tokens from the teacher's vocabulary and incorporating multilingual tokens via frequency analysis on a 40-language corpus, (2) clone a teacher embedding model while preserving transformer backbone weights and initializing a compatible embedding table for the new vocabulary via mean-composition token mapping, and (3) perform offline embedding distillation from precomputed teacher vectors using a cosine similarity objective over a balanced 40-language Wikipedia corpus. The resulting student model contains approximately 200M parameters and trains in roughly four hours on a single GPU by avoiding online teacher inference during training, at a total cost of 5-20. Empirically, Pearson/Spearman correlations of 77.55%/77.45% are obtained on STSbTR, surpassing the 300M-parameter teacher model (73.84%/72.92%). On TR-MTEB (26 tasks), a mean score of 63.9% is achieved (7th out of 26 models), providing a competitive cost-quality trade-off with 33% fewer parameters than the teacher. To facilitate reproducibility and downstream use, all artifacts are released including model weights, tokenizer files, precomputed embedding datasets, and open-source cloning and distillation tooling.