Aanpassing van meertalige inbeddingsmodellen aan het Turks via cross-linguale tokenizer-chirurgie en offline distillatie

Samenvatting

Zinsinbeddingen vormen een fundamenteel onderdeel voor semantisch zoeken, clusteren, classificatie en retrieval-augmented generatie. Dit artikel presenteert embeddingmagibu-200m, een op Turks gericht zinsinbeddingsmodel dat 768-dimensionale L2-genormaliseerde vectoren produceert en een contextvenster van 8.192 tokens ondersteunt, ver boven de limiet van 512 tokens van eerdere op BERT gebaseerde Turkse encoders. In plaats van volledige pretraining wordt een efficiënte drietrapsaanpassingspijplijn geïntroduceerd: (1) het construeren van een voor Turks geoptimaliseerde meertalige tokenizer met een vocabulaire van 131.072 door redundante tokens uit het vocabulaire van de leraar te verwijderen en meertalige tokens op te nemen via frequentieanalyse op een corpus van 40 talen, (2) het klonen van een lerarinbeddingsmodel met behoud van de gewichten van de transformator-backbone en het initialiseren van een compatibele inbeddingstabel voor het nieuwe vocabulaire via tokenmapping op basis van gemiddelde samenstelling, en (3) het offline uitvoeren van inbeddingsdistillatie van vooraf berekende leraarvectoren met behulp van een cosinusovereenkomstdoelstelling over een gebalanceerd Wikipedia-corpus van 40 talen. Het resulterende studentmodel bevat ongeveer 200M parameters en traint in ongeveer vier uur op een enkele GPU door het vermijden van online lerarinferentie tijdens de training, tegen een totale kostprijs van 5–20. Empirisch worden Pearson/Spearman-correlaties van 77,55%/77,45% behaald op STSbTR, waarmee het 300M-parameter lerarmodel (73,84%/72,92%) wordt overtroffen. Op TR-MTEB (26 taken) wordt een gemiddelde score van 63,9% behaald (7e van de 26 modellen), wat een concurrerende kosten-kwaliteitsafweging biedt met 33% minder parameters dan de leraar. Om reproduceerbaarheid en downstreamgebruik te faciliteren, worden alle artefacten vrijgegeven, waaronder modelgewichten, tokenizerbestanden, vooraf berekende inbeddingsdatasets en open-source kloon- en distillatietools.

English

Sentence embeddings are a foundational component for semantic search, clustering, classification, and retrieval-augmented generation. This paper presents embeddingmagibu-200m, a Turkish-focused sentence embedding model that produces 768-dimensional L2-normalized vectors and supports an 8,192-token context window, far exceeding the 512-token limit of earlier BERT-based Turkish encoders. Instead of full pretraining, an efficient three-stage adaptation pipeline is introduced: (1) construct a Turkish-optimized multilingual tokenizer with a 131,072 vocabulary by pruning redundant tokens from the teacher's vocabulary and incorporating multilingual tokens via frequency analysis on a 40-language corpus, (2) clone a teacher embedding model while preserving transformer backbone weights and initializing a compatible embedding table for the new vocabulary via mean-composition token mapping, and (3) perform offline embedding distillation from precomputed teacher vectors using a cosine similarity objective over a balanced 40-language Wikipedia corpus. The resulting student model contains approximately 200M parameters and trains in roughly four hours on a single GPU by avoiding online teacher inference during training, at a total cost of 5-20. Empirically, Pearson/Spearman correlations of 77.55%/77.45% are obtained on STSbTR, surpassing the 300M-parameter teacher model (73.84%/72.92%). On TR-MTEB (26 tasks), a mean score of 63.9% is achieved (7th out of 26 models), providing a competitive cost-quality trade-off with 33% fewer parameters than the teacher. To facilitate reproducibility and downstream use, all artifacts are released including model weights, tokenizer files, precomputed embedding datasets, and open-source cloning and distillation tooling.