SemBridge: Transferencia de idiomas en codificadores dispersos mediante puentes semánticos multilingües

Resumen

Los codificadores dispersos ofrecen una recuperación de alta precisión al representar la importancia de los términos dentro de un espacio de vocabulario, pero sus estructuras centradas en el inglés suponen un obstáculo crítico para la transferencia lingüística hacia lenguas no inglesas. Para superar esta limitación estructural, proponemos SemBridge, un novedoso método de inicialización de embeddings diseñado para la adaptación multilingüe en codificadores dispersos, aprovechando modelos puente multilingües. SemBridge establece alineaciones semánticas entre los vocabularios fuente y destino utilizando embeddings densos multilingües como puente. En lugar de depender directamente de todos los tokens fuente, SemBridge selecciona un pequeño conjunto de tokens de la lengua fuente semánticamente relacionados y los utiliza para inicializar cada token de la lengua destino, filtrando eficazmente el ruido semántico y reconstruyendo los tokens destino como combinaciones lineales precisas de sinónimos principales. Esto acelera la convergencia durante el ajuste fino y mejora la eficiencia del entrenamiento. Extensos experimentos en cinco lenguas y cuatro arquitecturas dispersas demuestran que SemBridge logra un rendimiento superior en recuperación zero-shot y mejora consistentemente el rendimiento de recuperación tras el ajuste fino en comparación con las líneas base existentes. Estos resultados validan a SemBridge como una solución práctica para desplegar sistemas de recuperación dispersa de alto rendimiento en entornos lingüísticos diversos.

English

Sparse encoders offer high-precision retrieval by representing term importance within a vocabulary space, yet their English-centric structures pose a critical impediment to language transfer for non-English languages. To overcome this structural limitation, we propose SemBridge, a novel embedding initialization method designed for cross-lingual adaptation in sparse encoders by leveraging multilingual bridge models. SemBridge establishes semantic alignments between source and target vocabularies using multilingual dense embeddings as a bridge. Rather than directly relying on all source tokens, SemBridge selects a small set of semantically related source-language tokens and uses them to initialize each target-language token, effectively filtering out semantic noise and reconstructing target tokens as precise linear combinations of core synonyms. This accelerates convergence during fine-tuning and improves training efficiency. Extensive experiments across five languages and four sparse architectures demonstrate that SemBridge achieves superior zero-shot retrieval performance and consistently improves retrieval performance after fine-tuning compared to existing baselines. These results validate SemBridge as a practical solution for deploying high-performance sparse retrieval systems in diverse linguistic environments.