SemBridge: Transferência de Linguagem em Codificadores Esparsos via Pontes Semânticas Multilíngues
SemBridge: Language Transfer in Sparse Encoders via Multilingual Semantic Bridges
May 25, 2026
Autores: Seongtae Hong, Youngjoon Jang, Jia-Heui Ju, Hyeonseok Moon, Heuiseok Lim
cs.AI
Resumo
Codificadores esparsos oferecem recuperação de alta precisão ao representar a importância dos termos em um espaço de vocabulário, porém suas estruturas centradas no inglês impõem um obstáculo crítico à transferência linguística para idiomas não ingleses. Para superar essa limitação estrutural, propomos SemBridge, um novo método de inicialização de embeddings projetado para adaptação multilíngue em codificadores esparsos, utilizando modelos ponte multilíngues. O SemBridge estabelece alinhamentos semânticos entre vocabulários de origem e destino empregando embeddings densos multilíngues como ponte. Em vez de depender diretamente de todos os tokens de origem, o SemBridge seleciona um pequeno conjunto de tokens semanticamente relacionados da língua fonte e os utiliza para inicializar cada token da língua alvo, filtrando efetivamente o ruído semântico e reconstruindo os tokens alvo como combinações lineares precisas de sinônimos principais. Isso acelera a convergência durante o ajuste fino e melhora a eficiência do treinamento. Experimentos extensivos em cinco idiomas e quatro arquiteturas esparsas demonstram que o SemBridge alcança desempenho superior em recuperação zero-shot e melhora consistentemente o desempenho de recuperação após o ajuste fino em comparação com as linhas de base existentes. Esses resultados validam o SemBridge como uma solução prática para implantar sistemas de recuperação esparsa de alto desempenho em diversos ambientes linguísticos.
English
Sparse encoders offer high-precision retrieval by representing term importance within a vocabulary space, yet their English-centric structures pose a critical impediment to language transfer for non-English languages. To overcome this structural limitation, we propose SemBridge, a novel embedding initialization method designed for cross-lingual adaptation in sparse encoders by leveraging multilingual bridge models. SemBridge establishes semantic alignments between source and target vocabularies using multilingual dense embeddings as a bridge. Rather than directly relying on all source tokens, SemBridge selects a small set of semantically related source-language tokens and uses them to initialize each target-language token, effectively filtering out semantic noise and reconstructing target tokens as precise linear combinations of core synonyms. This accelerates convergence during fine-tuning and improves training efficiency. Extensive experiments across five languages and four sparse architectures demonstrate that SemBridge achieves superior zero-shot retrieval performance and consistently improves retrieval performance after fine-tuning compared to existing baselines. These results validate SemBridge as a practical solution for deploying high-performance sparse retrieval systems in diverse linguistic environments.