SemBridge: Языковой перенос в разреженных энкодерах с помощью многоязычных семантических мостов

Аннотация

Разреженные кодировщики обеспечивают высокоточный поиск, представляя важность терминов в пространстве словаря, однако их англоцентричные структуры создают критическое препятствие для переноса языковых моделей на неанглийские языки. Чтобы преодолеть это структурное ограничение, мы предлагаем SemBridge — новый метод инициализации эмбеддингов, предназначенный для кросс-языковой адаптации разреженных кодировщиков с использованием многоязычных мостовых моделей. SemBridge устанавливает семантические соответствия между исходным и целевым словарями, применяя многоязычные плотные эмбеддинги в качестве моста. Вместо прямой зависимости от всех исходных токенов, SemBridge выбирает небольшое множество семантически связанных токенов исходного языка и использует их для инициализации каждого токена целевого языка, эффективно отфильтровывая семантический шум и реконструируя целевые токены как точные линейные комбинации ключевых синонимов. Это ускоряет сходимость при дообучении и повышает эффективность обучения. Обширные эксперименты с пятью языками и четырьмя разреженными архитектурами показывают, что SemBridge достигает превосходной производительности при нулевом поиске и стабильно улучшает результаты поиска после дообучения по сравнению с существующими базовыми методами. Эти результаты подтверждают, что SemBridge является практичным решением для развертывания высокопроизводительных систем разреженного поиска в разнообразных языковых средах.

English

Sparse encoders offer high-precision retrieval by representing term importance within a vocabulary space, yet their English-centric structures pose a critical impediment to language transfer for non-English languages. To overcome this structural limitation, we propose SemBridge, a novel embedding initialization method designed for cross-lingual adaptation in sparse encoders by leveraging multilingual bridge models. SemBridge establishes semantic alignments between source and target vocabularies using multilingual dense embeddings as a bridge. Rather than directly relying on all source tokens, SemBridge selects a small set of semantically related source-language tokens and uses them to initialize each target-language token, effectively filtering out semantic noise and reconstructing target tokens as precise linear combinations of core synonyms. This accelerates convergence during fine-tuning and improves training efficiency. Extensive experiments across five languages and four sparse architectures demonstrate that SemBridge achieves superior zero-shot retrieval performance and consistently improves retrieval performance after fine-tuning compared to existing baselines. These results validate SemBridge as a practical solution for deploying high-performance sparse retrieval systems in diverse linguistic environments.