SemBridge: Sprachtransfer in Sparse-Encodern mittels mehrsprachiger semantischer Brücken

Zusammenfassung

Sparse-Encoder ermöglichen eine hochpräzise Suche, indem sie die Termwichtigkeit innerhalb eines Vokabularraums darstellen, doch ihre auf das Englische zentrierten Strukturen stellen ein kritisches Hindernis für den Sprachtransfer bei nicht-englischen Sprachen dar. Um diese strukturelle Einschränkung zu überwinden, schlagen wir SemBridge vor, eine neuartige Einbettungsinitialisierungsmethode, die für die sprachübergreifende Anpassung in Sparse-Encodern durch die Nutzung mehrsprachiger Brückenmodelle konzipiert ist. SemBridge stellt semantische Alignments zwischen Quell- und Zielvokabularen her, indem mehrsprachige dichte Einbettungen als Brücke verwendet werden. Anstatt sich direkt auf alle Quelltokens zu stützen, wählt SemBridge eine kleine Menge semantisch verwandter quellsprachlicher Tokens aus und verwendet sie, um jedes zielsprachliche Token zu initialisieren, wodurch semantisches Rauschen effektiv herausgefiltert und Ziel-Tokens als präzise Linearkombinationen von Kernsynonymen rekonstruiert werden. Dies beschleunigt die Konvergenz während der Feinabstimmung und verbessert die Trainingseffizienz. Umfangreiche Experimente mit fünf Sprachen und vier Sparse-Architekturen zeigen, dass SemBridge eine überlegene Zero-Shot-Retrieval-Leistung erzielt und die Retrieval-Leistung nach der Feinabstimmung im Vergleich zu bestehenden Baselines konsistent verbessert. Diese Ergebnisse bestätigen SemBridge als praktische Lösung für den Einsatz leistungsstarker Sparse-Retrieval-Systeme in verschiedenen sprachlichen Umgebungen.

English

Sparse encoders offer high-precision retrieval by representing term importance within a vocabulary space, yet their English-centric structures pose a critical impediment to language transfer for non-English languages. To overcome this structural limitation, we propose SemBridge, a novel embedding initialization method designed for cross-lingual adaptation in sparse encoders by leveraging multilingual bridge models. SemBridge establishes semantic alignments between source and target vocabularies using multilingual dense embeddings as a bridge. Rather than directly relying on all source tokens, SemBridge selects a small set of semantically related source-language tokens and uses them to initialize each target-language token, effectively filtering out semantic noise and reconstructing target tokens as precise linear combinations of core synonyms. This accelerates convergence during fine-tuning and improves training efficiency. Extensive experiments across five languages and four sparse architectures demonstrate that SemBridge achieves superior zero-shot retrieval performance and consistently improves retrieval performance after fine-tuning compared to existing baselines. These results validate SemBridge as a practical solution for deploying high-performance sparse retrieval systems in diverse linguistic environments.