Amélioration de la proximité sémantique dans la recherche d'information par alignement interlangue

Résumé

Avec l'accessibilité et l'utilisation croissantes des documents multilingues, la Recherche d'Information Translingue (CLIR) est devenue un domaine de recherche important. Traditionnellement, les tâches de CLIR ont été menées dans des configurations où la langue des documents diffère de celle des requêtes, et généralement, les documents sont rédigés dans une seule langue cohérente. Dans cet article, nous soulignons que dans une telle configuration, la capacité d'alignement translingue pourrait ne pas être évaluée de manière adéquate. Plus précisément, nous observons que, dans un ensemble de documents où des documents en anglais coexistent avec une autre langue, la plupart des systèmes de recherche multilingues ont tendance à privilégier des documents anglais non pertinents par rapport au document pertinent rédigé dans la même langue que la requête. Pour analyser et quantifier rigoureusement ce phénomène, nous introduisons divers scénarios et métriques conçus pour évaluer les performances d'alignement translingue des modèles de recherche multilingues. De plus, pour améliorer les performances translingues dans ces conditions difficiles, nous proposons une nouvelle stratégie d'entraînement visant à renforcer l'alignement translingue. En utilisant seulement un petit jeu de données composé de 2,8k échantillons, notre méthode améliore significativement les performances de recherche translingue tout en atténuant simultanément le problème d'inclinaison vers l'anglais. Des analyses approfondies démontrent que la méthode proposée améliore substantiellement les capacités d'alignement translingue de la plupart des modèles d'incorporation multilingues.

English

With the increasing accessibility and utilization of multilingual documents, Cross-Lingual Information Retrieval (CLIR) has emerged as an important research area. Conventionally, CLIR tasks have been conducted under settings where the language of documents differs from that of queries, and typically, the documents are composed in a single coherent language. In this paper, we highlight that in such a setting, the cross-lingual alignment capability may not be evaluated adequately. Specifically, we observe that, in a document pool where English documents coexist with another language, most multilingual retrievers tend to prioritize unrelated English documents over the related document written in the same language as the query. To rigorously analyze and quantify this phenomenon, we introduce various scenarios and metrics designed to evaluate the cross-lingual alignment performance of multilingual retrieval models. Furthermore, to improve cross-lingual performance under these challenging conditions, we propose a novel training strategy aimed at enhancing cross-lingual alignment. Using only a small dataset consisting of 2.8k samples, our method significantly improves the cross-lingual retrieval performance while simultaneously mitigating the English inclination problem. Extensive analyses demonstrate that the proposed method substantially enhances the cross-lingual alignment capabilities of most multilingual embedding models.

Amélioration de la proximité sémantique dans la recherche d'information par alignement interlangue

Improving Semantic Proximity in Information Retrieval through Cross-Lingual Alignment

Résumé

Support