SemBridge: Taaloverdracht in Sparse Encoders via Meertalige Semantische Bruggen

Samenvatting

Spaarzame encoders bieden retrieval met hoge precisie door het belang van termen in een vocabulaire-ruimte weer te geven, maar hun Engels-centrische structuren vormen een kritieke belemmering voor taaloverdracht naar niet-Engelse talen. Om deze structurele beperking te overwinnen, stellen we SemBridge voor, een nieuwe inbeddingsinitialisatiemethode ontworpen voor cross-linguale aanpassing in spaarzame encoders door gebruik te maken van meertalige brugmodellen. SemBridge brengt semantische afstemmingen tot stand tussen bron- en doelvocabulaires door meertalige dichte inbeddingen als brug te gebruiken. In plaats van rechtstreeks te vertrouwen op alle bron-tokens, selecteert SemBridge een kleine set semantisch gerelateerde bron-tokens en gebruikt deze om elk doeltaal-token te initialiseren, waardoor semantische ruis effectief wordt uitgefilterd en doeltokens worden gereconstrueerd als precieze lineaire combinaties van kerntaal-synoniemen. Dit versnelt convergentie tijdens fine-tuning en verbetert de trainingsefficiëntie. Uitgebreide experimenten over vijf talen en vier spaarzame architecturen tonen aan dat SemBridge superieure zero-shot retrievalprestaties behaalt en consequent de retrievalprestaties na fine-tuning verbetert in vergelijking met bestaande basislijnen. Deze resultaten valideren SemBridge als een praktische oplossing voor het inzetten van hoogwaardige spaarzame retrievalsystemen in diverse taalkundige omgevingen.

English

Sparse encoders offer high-precision retrieval by representing term importance within a vocabulary space, yet their English-centric structures pose a critical impediment to language transfer for non-English languages. To overcome this structural limitation, we propose SemBridge, a novel embedding initialization method designed for cross-lingual adaptation in sparse encoders by leveraging multilingual bridge models. SemBridge establishes semantic alignments between source and target vocabularies using multilingual dense embeddings as a bridge. Rather than directly relying on all source tokens, SemBridge selects a small set of semantically related source-language tokens and uses them to initialize each target-language token, effectively filtering out semantic noise and reconstructing target tokens as precise linear combinations of core synonyms. This accelerates convergence during fine-tuning and improves training efficiency. Extensive experiments across five languages and four sparse architectures demonstrate that SemBridge achieves superior zero-shot retrieval performance and consistently improves retrieval performance after fine-tuning compared to existing baselines. These results validate SemBridge as a practical solution for deploying high-performance sparse retrieval systems in diverse linguistic environments.