Adaptação de modelos de embedding multilíngues para o turco via cirurgia de tokenizador cross-lingual e destilação offline

Resumo

Embeddings de frases são um componente fundamental para busca semântica, agrupamento, classificação e geração aumentada por recuperação. Este artigo apresenta o embeddingmagibu-200m, um modelo de embedding de frases focado em turco que produz vetores normalizados por L2 com 768 dimensões e suporta uma janela de contexto de 8.192 tokens, superando em muito o limite de 512 tokens dos codificadores turcos anteriores baseados em BERT. Em vez de um pré-treinamento completo, é introduzido um pipeline eficiente de adaptação em três estágios: (1) construir um tokenizador multilíngue otimizado para turco com um vocabulário de 131.072 tokens, podando tokens redundantes do vocabulário do modelo professor e incorporando tokens multilíngues via análise de frequência em um corpus de 40 idiomas; (2) clonar um modelo de embedding professor, preservando os pesos do backbone do transformer e inicializando uma tabela de embeddings compatível para o novo vocabulário via mapeamento de tokens por composição de médias; e (3) realizar destilação de embeddings offline a partir de vetores pré-computados do professor, utilizando um objetivo de similaridade cosseno sobre um corpus equilibrado da Wikipédia em 40 idiomas. O modelo aluno resultante possui aproximadamente 200 milhões de parâmetros e é treinado em cerca de quatro horas em uma única GPU, evitando inferência online do professor durante o treinamento, a um custo total de 5 a 20 dólares. Empiricamente, são obtidas correlações de Pearson/Spearman de 77,55%/77,45% no STSbTR, superando o modelo professor de 300 milhões de parâmetros (73,84%/72,92%). No TR-MTEB (26 tarefas), é alcançada uma pontuação média de 63,9% (7º lugar entre 26 modelos), proporcionando uma relação custo-qualidade competitiva com 33% menos parâmetros que o professor. Para facilitar a reprodutibilidade e o uso downstream, todos os artefatos são disponibilizados, incluindo pesos do modelo, arquivos do tokenizador, conjuntos de dados de embeddings pré-computados e ferramentas de clonagem e destilação de código aberto.

English

Sentence embeddings are a foundational component for semantic search, clustering, classification, and retrieval-augmented generation. This paper presents embeddingmagibu-200m, a Turkish-focused sentence embedding model that produces 768-dimensional L2-normalized vectors and supports an 8,192-token context window, far exceeding the 512-token limit of earlier BERT-based Turkish encoders. Instead of full pretraining, an efficient three-stage adaptation pipeline is introduced: (1) construct a Turkish-optimized multilingual tokenizer with a 131,072 vocabulary by pruning redundant tokens from the teacher's vocabulary and incorporating multilingual tokens via frequency analysis on a 40-language corpus, (2) clone a teacher embedding model while preserving transformer backbone weights and initializing a compatible embedding table for the new vocabulary via mean-composition token mapping, and (3) perform offline embedding distillation from precomputed teacher vectors using a cosine similarity objective over a balanced 40-language Wikipedia corpus. The resulting student model contains approximately 200M parameters and trains in roughly four hours on a single GPU by avoiding online teacher inference during training, at a total cost of 5-20. Empirically, Pearson/Spearman correlations of 77.55%/77.45% are obtained on STSbTR, surpassing the 300M-parameter teacher model (73.84%/72.92%). On TR-MTEB (26 tasks), a mean score of 63.9% is achieved (7th out of 26 models), providing a competitive cost-quality trade-off with 33% fewer parameters than the teacher. To facilitate reproducibility and downstream use, all artifacts are released including model weights, tokenizer files, precomputed embedding datasets, and open-source cloning and distillation tooling.