SemBridge: 다국어 의미적 브리지를 통한 희소 인코더에서의 언어 전이
SemBridge: Language Transfer in Sparse Encoders via Multilingual Semantic Bridges
May 25, 2026
저자: Seongtae Hong, Youngjoon Jang, Jia-Heui Ju, Hyeonseok Moon, Heuiseok Lim
cs.AI
초록
희소 인코더는 어휘 공간 내에서 용어 중요성을 표현함으로써 고정밀 검색을 제공하지만, 그들의 영어 중심 구조는 비영어권 언어에 대한 언어 전이에 심각한 장애를 초래한다. 이러한 구조적 한계를 극복하기 위해, 우리는 다국어 브리지 모델을 활용하여 희소 인코더에서의 교차 언어 적응을 위해 설계된 새로운 임베딩 초기화 방법인 SemBridge를 제안한다. SemBridge는 다국어 밀집 임베딩을 브리지로 사용하여 소스 어휘와 대상 어휘 간의 의미적 정렬을 설정한다. 모든 소스 토큰에 직접 의존하는 대신, SemBridge는 의미적으로 관련된 소수의 소스 언어 토큰을 선택하여 각 대상 언어 토큰을 초기화하는 데 사용함으로써 의미적 잡음을 효과적으로 걸러내고 대상 토큰을 핵심 동의어의 정밀한 선형 결합으로 재구성한다. 이는 미세 조정 중 수렴을 가속화하고 훈련 효율을 향상시킨다. 다섯 개 언어와 네 개의 희소 아키텍처에 걸친 광범위한 실험을 통해 SemBridge가 기존 기준선과 비교하여 우수한 제로샷 검색 성능을 달성하고 미세 조정 후 검색 성능을 일관되게 향상시킴을 입증한다. 이러한 결과는 SemBridge가 다양한 언어 환경에서 고성능 희소 검색 시스템을 배포하기 위한 실용적인 솔루션임을 검증한다.
English
Sparse encoders offer high-precision retrieval by representing term importance within a vocabulary space, yet their English-centric structures pose a critical impediment to language transfer for non-English languages. To overcome this structural limitation, we propose SemBridge, a novel embedding initialization method designed for cross-lingual adaptation in sparse encoders by leveraging multilingual bridge models. SemBridge establishes semantic alignments between source and target vocabularies using multilingual dense embeddings as a bridge. Rather than directly relying on all source tokens, SemBridge selects a small set of semantically related source-language tokens and uses them to initialize each target-language token, effectively filtering out semantic noise and reconstructing target tokens as precise linear combinations of core synonyms. This accelerates convergence during fine-tuning and improves training efficiency. Extensive experiments across five languages and four sparse architectures demonstrate that SemBridge achieves superior zero-shot retrieval performance and consistently improves retrieval performance after fine-tuning compared to existing baselines. These results validate SemBridge as a practical solution for deploying high-performance sparse retrieval systems in diverse linguistic environments.