Dual-Alignment Pre-training voor Cross-linguale Zinsembedding

Samenvatting

Recente studies hebben aangetoond dat dual encoder-modellen die zijn getraind met de taak van vertaalrangschikking op zinsniveau effectieve methoden zijn voor het creëren van cross-linguale zinembeddingen. Uit ons onderzoek blijkt echter dat token-level uitlijning ook cruciaal is in meertalige scenario's, wat eerder niet volledig is onderzocht. Op basis van onze bevindingen stellen we een dual-alignment vooraf trainen (DAP) raamwerk voor voor cross-linguale zinembeddingen, dat zowel zinsniveau- als token-level uitlijning omvat. Om dit te bereiken, introduceren we een nieuwe representatievertaalleer (RTL) taak, waarbij het model leert om eenzijdige gecontextualiseerde tokenrepresentatie te gebruiken om zijn vertaaltegenhanger te reconstrueren. Dit reconstructiedoel moedigt het model aan om vertaalinformatie in de tokenrepresentatie in te bedden. In vergelijking met andere token-level uitlijningsmethoden, zoals translation language modeling, is RTL beter geschikt voor dual encoder-architecturen en is het computationeel efficiënt. Uitgebreide experimenten op drie cross-linguale benchmarks op zinsniveau tonen aan dat onze aanpak zinembeddingen aanzienlijk kan verbeteren. Onze code is beschikbaar op https://github.com/ChillingDream/DAP.

English

Recent studies have shown that dual encoder models trained with the sentence-level translation ranking task are effective methods for cross-lingual sentence embedding. However, our research indicates that token-level alignment is also crucial in multilingual scenarios, which has not been fully explored previously. Based on our findings, we propose a dual-alignment pre-training (DAP) framework for cross-lingual sentence embedding that incorporates both sentence-level and token-level alignment. To achieve this, we introduce a novel representation translation learning (RTL) task, where the model learns to use one-side contextualized token representation to reconstruct its translation counterpart. This reconstruction objective encourages the model to embed translation information into the token representation. Compared to other token-level alignment methods such as translation language modeling, RTL is more suitable for dual encoder architectures and is computationally efficient. Extensive experiments on three sentence-level cross-lingual benchmarks demonstrate that our approach can significantly improve sentence embedding. Our code is available at https://github.com/ChillingDream/DAP.

Dual-Alignment Pre-training voor Cross-linguale Zinsembedding

Dual-Alignment Pre-training for Cross-lingual Sentence Embedding

Samenvatting

Support