Dual-Alignment Pre-training voor Cross-linguale Zinsembedding
Dual-Alignment Pre-training for Cross-lingual Sentence Embedding
May 16, 2023
Auteurs: Ziheng Li, Shaohan Huang, Zihan Zhang, Zhi-Hong Deng, Qiang Lou, Haizhen Huang, Jian Jiao, Furu Wei, Weiwei Deng, Qi Zhang
cs.AI
Samenvatting
Recente studies hebben aangetoond dat dual encoder-modellen die zijn getraind met de taak van vertaalrangschikking op zinsniveau effectieve methoden zijn voor het creëren van cross-linguale zinembeddingen. Uit ons onderzoek blijkt echter dat token-level uitlijning ook cruciaal is in meertalige scenario's, wat eerder niet volledig is onderzocht. Op basis van onze bevindingen stellen we een dual-alignment vooraf trainen (DAP) raamwerk voor voor cross-linguale zinembeddingen, dat zowel zinsniveau- als token-level uitlijning omvat. Om dit te bereiken, introduceren we een nieuwe representatievertaalleer (RTL) taak, waarbij het model leert om eenzijdige gecontextualiseerde tokenrepresentatie te gebruiken om zijn vertaaltegenhanger te reconstrueren. Dit reconstructiedoel moedigt het model aan om vertaalinformatie in de tokenrepresentatie in te bedden. In vergelijking met andere token-level uitlijningsmethoden, zoals translation language modeling, is RTL beter geschikt voor dual encoder-architecturen en is het computationeel efficiënt. Uitgebreide experimenten op drie cross-linguale benchmarks op zinsniveau tonen aan dat onze aanpak zinembeddingen aanzienlijk kan verbeteren. Onze code is beschikbaar op https://github.com/ChillingDream/DAP.
English
Recent studies have shown that dual encoder models trained with the
sentence-level translation ranking task are effective methods for cross-lingual
sentence embedding. However, our research indicates that token-level alignment
is also crucial in multilingual scenarios, which has not been fully explored
previously. Based on our findings, we propose a dual-alignment pre-training
(DAP) framework for cross-lingual sentence embedding that incorporates both
sentence-level and token-level alignment. To achieve this, we introduce a novel
representation translation learning (RTL) task, where the model learns to use
one-side contextualized token representation to reconstruct its translation
counterpart. This reconstruction objective encourages the model to embed
translation information into the token representation. Compared to other
token-level alignment methods such as translation language modeling, RTL is
more suitable for dual encoder architectures and is computationally efficient.
Extensive experiments on three sentence-level cross-lingual benchmarks
demonstrate that our approach can significantly improve sentence embedding. Our
code is available at https://github.com/ChillingDream/DAP.