Adaptation des modèles d'embedding multilingues au turc via la chirurgie cross-lingue du tokeniseur et la distillation hors ligne

Résumé

Les plongements de phrases constituent un composant fondamental pour la recherche sémantique, le regroupement, la classification et la génération augmentée par récupération. Cet article présente embeddingmagibu-200m, un modèle de plongement de phrases centré sur le turc produisant des vecteurs normalisés L2 de dimension 768 et prenant en charge une fenêtre de contexte de 8 192 tokens, dépassant largement la limite de 512 tokens des encodeurs turcs antérieurs basés sur BERT. Au lieu d’un pré-entraînement complet, un pipeline d’adaptation efficace en trois étapes est introduit : (1) construction d’un tokeniseur multilingue optimisé pour le turc avec un vocabulaire de 131 072 tokens, en élaguant les tokens redondants du vocabulaire du professeur et en incorporant des tokens multilingues via une analyse de fréquence sur un corpus de 40 langues, (2) clonage d’un modèle de plongement professeur tout en conservant les poids du transformeur principal et en initialisant une table de plongement compatible pour le nouveau vocabulaire via un mappage de tokens par composition de moyennes, et (3) distillation de plongements hors ligne à partir de vecteurs professeurs précalculés utilisant un objectif de similarité cosinus sur un corpus Wikipédia équilibré en 40 langues. Le modèle étudiant résultant contient environ 200M paramètres et s’entraîne en environ quatre heures sur un seul GPU en évitant l’inférence en ligne du professeur pendant l’entraînement, pour un coût total de 5 à 20 dollars. Empiriquement, des corrélations de Pearson/Spearman de 77,55 %/77,45 % sont obtenues sur STSbTR, surpassant le modèle professeur de 300M paramètres (73,84 %/72,92 %). Sur TR-MTEB (26 tâches), un score moyen de 63,9 % est atteint (7e sur 26 modèles), offrant un compromis compétitif qualité-coût avec 33 % de paramètres en moins par rapport au professeur. Pour faciliter la reproductibilité et l’utilisation en aval, tous les artefacts sont publiés, y compris les poids du modèle, les fichiers du tokeniseur, les ensembles de données de plongements précalculés et les outils de clonage et de distillation en open source.

English

Sentence embeddings are a foundational component for semantic search, clustering, classification, and retrieval-augmented generation. This paper presents embeddingmagibu-200m, a Turkish-focused sentence embedding model that produces 768-dimensional L2-normalized vectors and supports an 8,192-token context window, far exceeding the 512-token limit of earlier BERT-based Turkish encoders. Instead of full pretraining, an efficient three-stage adaptation pipeline is introduced: (1) construct a Turkish-optimized multilingual tokenizer with a 131,072 vocabulary by pruning redundant tokens from the teacher's vocabulary and incorporating multilingual tokens via frequency analysis on a 40-language corpus, (2) clone a teacher embedding model while preserving transformer backbone weights and initializing a compatible embedding table for the new vocabulary via mean-composition token mapping, and (3) perform offline embedding distillation from precomputed teacher vectors using a cosine similarity objective over a balanced 40-language Wikipedia corpus. The resulting student model contains approximately 200M parameters and trains in roughly four hours on a single GPU by avoiding online teacher inference during training, at a total cost of 5-20. Empirically, Pearson/Spearman correlations of 77.55%/77.45% are obtained on STSbTR, surpassing the 300M-parameter teacher model (73.84%/72.92%). On TR-MTEB (26 tasks), a mean score of 63.9% is achieved (7th out of 26 models), providing a competitive cost-quality trade-off with 33% fewer parameters than the teacher. To facilitate reproducibility and downstream use, all artifacts are released including model weights, tokenizer files, precomputed embedding datasets, and open-source cloning and distillation tooling.