Pré-entraînement par alignement dual pour l'incorporation de phrases multilingues
Dual-Alignment Pre-training for Cross-lingual Sentence Embedding
May 16, 2023
Auteurs: Ziheng Li, Shaohan Huang, Zihan Zhang, Zhi-Hong Deng, Qiang Lou, Haizhen Huang, Jian Jiao, Furu Wei, Weiwei Deng, Qi Zhang
cs.AI
Résumé
Des études récentes ont montré que les modèles à double encodeur entraînés avec la tâche de classement de traductions au niveau de la phrase constituent des méthodes efficaces pour l'encodage de phrases multilingues. Cependant, nos recherches indiquent que l'alignement au niveau des tokens est également crucial dans les scénarios multilingues, un aspect qui n'a pas été pleinement exploré auparavant. Sur la base de nos découvertes, nous proposons un cadre de pré-entraînement à double alignement (DAP) pour l'encodage de phrases multilingues, intégrant à la fois l'alignement au niveau de la phrase et au niveau des tokens. Pour y parvenir, nous introduisons une nouvelle tâche d'apprentissage de traduction de représentations (RTL), où le modèle apprend à utiliser une représentation contextualisée unilatérale des tokens pour reconstruire son équivalent traduit. Cet objectif de reconstruction encourage le modèle à intégrer des informations de traduction dans la représentation des tokens. Comparée à d'autres méthodes d'alignement au niveau des tokens, telles que la modélisation de langage de traduction, la RTL est plus adaptée aux architectures à double encodeur et est plus efficace sur le plan computationnel. Des expériences approfondies sur trois benchmarks multilingues au niveau de la phrase démontrent que notre approche peut considérablement améliorer l'encodage de phrases. Notre code est disponible à l'adresse https://github.com/ChillingDream/DAP.
English
Recent studies have shown that dual encoder models trained with the
sentence-level translation ranking task are effective methods for cross-lingual
sentence embedding. However, our research indicates that token-level alignment
is also crucial in multilingual scenarios, which has not been fully explored
previously. Based on our findings, we propose a dual-alignment pre-training
(DAP) framework for cross-lingual sentence embedding that incorporates both
sentence-level and token-level alignment. To achieve this, we introduce a novel
representation translation learning (RTL) task, where the model learns to use
one-side contextualized token representation to reconstruct its translation
counterpart. This reconstruction objective encourages the model to embed
translation information into the token representation. Compared to other
token-level alignment methods such as translation language modeling, RTL is
more suitable for dual encoder architectures and is computationally efficient.
Extensive experiments on three sentence-level cross-lingual benchmarks
demonstrate that our approach can significantly improve sentence embedding. Our
code is available at https://github.com/ChillingDream/DAP.