Pré-entraînement par alignement dual pour l'incorporation de phrases multilingues

Résumé

Des études récentes ont montré que les modèles à double encodeur entraînés avec la tâche de classement de traductions au niveau de la phrase constituent des méthodes efficaces pour l'encodage de phrases multilingues. Cependant, nos recherches indiquent que l'alignement au niveau des tokens est également crucial dans les scénarios multilingues, un aspect qui n'a pas été pleinement exploré auparavant. Sur la base de nos découvertes, nous proposons un cadre de pré-entraînement à double alignement (DAP) pour l'encodage de phrases multilingues, intégrant à la fois l'alignement au niveau de la phrase et au niveau des tokens. Pour y parvenir, nous introduisons une nouvelle tâche d'apprentissage de traduction de représentations (RTL), où le modèle apprend à utiliser une représentation contextualisée unilatérale des tokens pour reconstruire son équivalent traduit. Cet objectif de reconstruction encourage le modèle à intégrer des informations de traduction dans la représentation des tokens. Comparée à d'autres méthodes d'alignement au niveau des tokens, telles que la modélisation de langage de traduction, la RTL est plus adaptée aux architectures à double encodeur et est plus efficace sur le plan computationnel. Des expériences approfondies sur trois benchmarks multilingues au niveau de la phrase démontrent que notre approche peut considérablement améliorer l'encodage de phrases. Notre code est disponible à l'adresse https://github.com/ChillingDream/DAP.

English

Recent studies have shown that dual encoder models trained with the sentence-level translation ranking task are effective methods for cross-lingual sentence embedding. However, our research indicates that token-level alignment is also crucial in multilingual scenarios, which has not been fully explored previously. Based on our findings, we propose a dual-alignment pre-training (DAP) framework for cross-lingual sentence embedding that incorporates both sentence-level and token-level alignment. To achieve this, we introduce a novel representation translation learning (RTL) task, where the model learns to use one-side contextualized token representation to reconstruct its translation counterpart. This reconstruction objective encourages the model to embed translation information into the token representation. Compared to other token-level alignment methods such as translation language modeling, RTL is more suitable for dual encoder architectures and is computationally efficient. Extensive experiments on three sentence-level cross-lingual benchmarks demonstrate that our approach can significantly improve sentence embedding. Our code is available at https://github.com/ChillingDream/DAP.

Pré-entraînement par alignement dual pour l'incorporation de phrases multilingues

Dual-Alignment Pre-training for Cross-lingual Sentence Embedding

Résumé

Support