Anpassung mehrsprachiger Einbettungsmodelle an das Türkische durch sprachübergreifende Tokenizer-Chirurgie und Offline-Destillation

Zusammenfassung

Satz-Embeddings sind eine grundlegende Komponente für semantische Suche, Clustering, Klassifikation und retrieval-gestützte Generierung. Dieses Paper stellt embeddingmagibu-200m vor, ein auf Türkisch fokussiertes Satz-Embedding-Modell, das 768-dimensionale, L2-normalisierte Vektoren erzeugt und ein Kontextfenster von 8.192 Tokens unterstützt – weit über das 512-Token-Limit früherer BERT-basierter türkischer Encoder hinaus. Statt eines vollständigen Vortrainings wird eine effiziente dreistufige Anpassungspipeline eingeführt: (1) Konstruktion eines türkisch-optimierten mehrsprachigen Tokenizers mit einem Vokabular von 131.072 durch Bereinigung redundanter Tokens aus dem Teacher-Vokabular und Integration mehrsprachiger Tokens mittels Frequenzanalyse auf einem 40-sprachigen Korpus, (2) Klonen eines Teacher-Embedding-Modells unter Beibehaltung der Transformer-Backbone-Gewichte und Initialisierung einer kompatiblen Embedding-Tabelle für das neue Vokabular mittels Token-Mapping durch Mittelwertbildung sowie (3) Offline-Embedding-Destillation aus vorberechneten Teacher-Vektoren unter Verwendung eines Cosinus-Ähnlichkeitsziels über ein ausgewogenes 40-sprachiges Wikipedia-Korpus. Das resultierende Schülermodell umfasst etwa 200 Millionen Parameter und lässt sich auf einer einzelnen GPU in etwa vier Stunden trainieren, da die Online-Inferenz des Teachers während des Trainings vermieden wird – zu Gesamtkosten von 5–20 $. Empirisch werden Pearson-/Spearman-Korrelationen von 77,55 %/77,45 % auf STSbTR erzielt, womit das 300M-Parameter-Teacher-Modell (73,84 %/72,92 %) übertroffen wird. Auf TR-MTEB (26 Aufgaben) wird eine durchschnittliche Punktzahl von 63,9 % erreicht (7. Platz von 26 Modellen), was einen wettbewerbsfähigen Kosten-Qualitäts-Kompromiss bei 33 % weniger Parametern als der Teacher bietet. Zur Förderung der Reproduzierbarkeit und nachgelagerten Nutzung werden alle Artefakte veröffentlicht, darunter Modellgewichte, Tokenizer-Dateien, vorberechnete Embedding-Datensätze sowie Open-Source-Tools zum Klonen und zur Destillation.

English

Sentence embeddings are a foundational component for semantic search, clustering, classification, and retrieval-augmented generation. This paper presents embeddingmagibu-200m, a Turkish-focused sentence embedding model that produces 768-dimensional L2-normalized vectors and supports an 8,192-token context window, far exceeding the 512-token limit of earlier BERT-based Turkish encoders. Instead of full pretraining, an efficient three-stage adaptation pipeline is introduced: (1) construct a Turkish-optimized multilingual tokenizer with a 131,072 vocabulary by pruning redundant tokens from the teacher's vocabulary and incorporating multilingual tokens via frequency analysis on a 40-language corpus, (2) clone a teacher embedding model while preserving transformer backbone weights and initializing a compatible embedding table for the new vocabulary via mean-composition token mapping, and (3) perform offline embedding distillation from precomputed teacher vectors using a cosine similarity objective over a balanced 40-language Wikipedia corpus. The resulting student model contains approximately 200M parameters and trains in roughly four hours on a single GPU by avoiding online teacher inference during training, at a total cost of 5-20. Empirically, Pearson/Spearman correlations of 77.55%/77.45% are obtained on STSbTR, surpassing the 300M-parameter teacher model (73.84%/72.92%). On TR-MTEB (26 tasks), a mean score of 63.9% is achieved (7th out of 26 models), providing a competitive cost-quality trade-off with 33% fewer parameters than the teacher. To facilitate reproducibility and downstream use, all artifacts are released including model weights, tokenizer files, precomputed embedding datasets, and open-source cloning and distillation tooling.