Adaptación de Modelos de Embedding Multilingües al Turco mediante Cirugía de Tokenizador Multilingüe y Destilación Offline

Resumen

Los embeddings de oraciones son un componente fundamental para la búsqueda semántica, la agrupación, la clasificación y la generación aumentada por recuperación. Este artículo presenta embeddingmagibu-200m, un modelo de embeddings de oraciones enfocado en turco que produce vectores L2-normalizados de 768 dimensiones y admite una ventana de contexto de 8,192 tokens, superando con creces el límite de 512 tokens de los codificadores turcos anteriores basados en BERT. En lugar de un preentrenamiento completo, se introduce un eficiente proceso de adaptación en tres etapas: (1) construir un tokenizador multilingüe optimizado para turco con un vocabulario de 131,072 tokens, eliminando tokens redundantes del vocabulario del maestro e incorporando tokens multilingües mediante análisis de frecuencia en un corpus de 40 idiomas; (2) clonar un modelo de embeddings maestro, preservando los pesos del transformador subyacente e inicializando una tabla de embeddings compatible para el nuevo vocabulario mediante un mapeo de tokens por composición de medias; y (3) realizar destilación de embeddings fuera de línea a partir de vectores maestros precomputados utilizando un objetivo de similitud coseno sobre un corpus equilibrado de Wikipedia en 40 idiomas. El modelo estudiante resultante contiene aproximadamente 200 millones de parámetros y se entrena en aproximadamente cuatro horas en una sola GPU al evitar la inferencia en línea del maestro durante el entrenamiento, con un costo total de 5–20. Empíricamente, se obtienen correlaciones de Pearson/Spearman de 77.55%/77.45% en STSbTR, superando al modelo maestro de 300 millones de parámetros (73.84%/72.92%). En TR-MTEB (26 tareas), se logra una puntuación media de 63.9% (7.° de 26 modelos), ofreciendo un compromiso costo-calidad competitivo con un 33% menos de parámetros que el maestro. Para facilitar la reproducibilidad y el uso posterior, se publican todos los artefactos, incluidos los pesos del modelo, los archivos del tokenizador, los conjuntos de datos de embeddings precomputados y las herramientas de código abierto para clonación y destilación.

English

Sentence embeddings are a foundational component for semantic search, clustering, classification, and retrieval-augmented generation. This paper presents embeddingmagibu-200m, a Turkish-focused sentence embedding model that produces 768-dimensional L2-normalized vectors and supports an 8,192-token context window, far exceeding the 512-token limit of earlier BERT-based Turkish encoders. Instead of full pretraining, an efficient three-stage adaptation pipeline is introduced: (1) construct a Turkish-optimized multilingual tokenizer with a 131,072 vocabulary by pruning redundant tokens from the teacher's vocabulary and incorporating multilingual tokens via frequency analysis on a 40-language corpus, (2) clone a teacher embedding model while preserving transformer backbone weights and initializing a compatible embedding table for the new vocabulary via mean-composition token mapping, and (3) perform offline embedding distillation from precomputed teacher vectors using a cosine similarity objective over a balanced 40-language Wikipedia corpus. The resulting student model contains approximately 200M parameters and trains in roughly four hours on a single GPU by avoiding online teacher inference during training, at a total cost of 5-20. Empirically, Pearson/Spearman correlations of 77.55%/77.45% are obtained on STSbTR, surpassing the 300M-parameter teacher model (73.84%/72.92%). On TR-MTEB (26 tasks), a mean score of 63.9% is achieved (7th out of 26 models), providing a competitive cost-quality trade-off with 33% fewer parameters than the teacher. To facilitate reproducibility and downstream use, all artifacts are released including model weights, tokenizer files, precomputed embedding datasets, and open-source cloning and distillation tooling.