교차 언어 정렬을 통한 정보 검색의 의미적 근접성 향상
Improving Semantic Proximity in Information Retrieval through Cross-Lingual Alignment
April 7, 2026
저자: Seongtae Hong, Youngjoon Jang, Jungseob Lee, Hyeonseok Moon, Heuiseok Lim
cs.AI
초록
다국어 문서의 접근성과 활용도가 높아짐에 따라 교차 언어 정보 검색(CLIR)은 중요한 연구 분야로 부상했습니다. 기존에는 문서의 언어가 질의 언어와 다른 설정에서 CLIR 작업이 수행되었으며, 일반적으로 문서는 단일 일관된 언어로 구성됩니다. 본 논문에서는 이러한 설정에서 교차 언어 정렬 능력이 충분히 평가되지 않을 수 있음을 강조합니다. 구체적으로, 영어 문서가 다른 언어와 공존하는 문서 집합에서 대부분의 다국어 검색 모델이 질의와 동일한 언어로 작성된 관련 문서보다 관련 없는 영어 문서를 우선적으로 선호하는 경향이 있음을 관찰했습니다. 이러한 현상을 엄밀하게 분석하고 정량화하기 위해 다국어 검색 모델의 교차 언어 정렬 성능을 평가하도록 설계된 다양한 시나리오와 지표를 도입합니다. 더 나아가 이러한 어려운 조건에서 교차 언어 성능을 향상시키기 위해 교차 언어 정렬 강화를 목표로 한 새로운 훈련 전략을 제안합니다. 2.8k 샘플로 구성된 소규모 데이터셋만을 사용하여 우리 방법은 교차 언어 검색 성능을 크게 향상시키는 동시에 영어 편향 문제를 완화합니다. 포괄적인 분석을 통해 제안 방법이 대부분의 다국어 임베딩 모델의 교차 언어 정렬 능력을 크게 향상시킴을 입증합니다.
English
With the increasing accessibility and utilization of multilingual documents, Cross-Lingual Information Retrieval (CLIR) has emerged as an important research area. Conventionally, CLIR tasks have been conducted under settings where the language of documents differs from that of queries, and typically, the documents are composed in a single coherent language. In this paper, we highlight that in such a setting, the cross-lingual alignment capability may not be evaluated adequately. Specifically, we observe that, in a document pool where English documents coexist with another language, most multilingual retrievers tend to prioritize unrelated English documents over the related document written in the same language as the query. To rigorously analyze and quantify this phenomenon, we introduce various scenarios and metrics designed to evaluate the cross-lingual alignment performance of multilingual retrieval models. Furthermore, to improve cross-lingual performance under these challenging conditions, we propose a novel training strategy aimed at enhancing cross-lingual alignment. Using only a small dataset consisting of 2.8k samples, our method significantly improves the cross-lingual retrieval performance while simultaneously mitigating the English inclination problem. Extensive analyses demonstrate that the proposed method substantially enhances the cross-lingual alignment capabilities of most multilingual embedding models.