SemBridge : Transfert linguistique dans les encodeurs creux via des ponts sémantiques multilingues

Résumé

Les encodeurs parcimonieux offrent une recherche de haute précision en représentant l'importance des termes dans un espace de vocabulaire, mais leurs structures centrées sur l'anglais constituent un obstacle critique au transfert linguistique pour les langues non anglaises. Pour surmonter cette limitation structurelle, nous proposons SemBridge, une nouvelle méthode d'initialisation d'embeddings conçue pour l'adaptation cross-lingue dans les encodeurs parcimonieux en exploitant des modèles multilingues passerelles. SemBridge établit des alignements sémantiques entre les vocabulaires source et cible en utilisant des embeddings denses multilingues comme passerelle. Plutôt que de se fier directement à l'ensemble des tokens sources, SemBridge sélectionne un petit ensemble de tokens sources sémantiquement apparentés et les utilise pour initialiser chaque token cible, filtrant ainsi efficacement le bruit sémantique et reconstruisant les tokens cibles sous forme de combinaisons linéaires précises de synonymes centraux. Cela accélère la convergence lors du fine-tuning et améliore l'efficacité de l'entraînement. Des expériences approfondies menées sur cinq langues et quatre architectures parcimonieuses démontrent que SemBridge atteint des performances de recherche zero-shot supérieures et améliore constamment les performances de recherche après fine-tuning par rapport aux références existantes. Ces résultats confirment que SemBridge constitue une solution pratique pour déployer des systèmes de recherche parcimonieux haute performance dans des environnements linguistiques diversifiés.

English

Sparse encoders offer high-precision retrieval by representing term importance within a vocabulary space, yet their English-centric structures pose a critical impediment to language transfer for non-English languages. To overcome this structural limitation, we propose SemBridge, a novel embedding initialization method designed for cross-lingual adaptation in sparse encoders by leveraging multilingual bridge models. SemBridge establishes semantic alignments between source and target vocabularies using multilingual dense embeddings as a bridge. Rather than directly relying on all source tokens, SemBridge selects a small set of semantically related source-language tokens and uses them to initialize each target-language token, effectively filtering out semantic noise and reconstructing target tokens as precise linear combinations of core synonyms. This accelerates convergence during fine-tuning and improves training efficiency. Extensive experiments across five languages and four sparse architectures demonstrate that SemBridge achieves superior zero-shot retrieval performance and consistently improves retrieval performance after fine-tuning compared to existing baselines. These results validate SemBridge as a practical solution for deploying high-performance sparse retrieval systems in diverse linguistic environments.