Pre-addestramento a Doppio Allineamento per l'Embedding di Frasi Cross-Linguali
Dual-Alignment Pre-training for Cross-lingual Sentence Embedding
May 16, 2023
Autori: Ziheng Li, Shaohan Huang, Zihan Zhang, Zhi-Hong Deng, Qiang Lou, Haizhen Huang, Jian Jiao, Furu Wei, Weiwei Deng, Qi Zhang
cs.AI
Abstract
Studi recenti hanno dimostrato che i modelli a doppio encoder addestrati con il compito di ranking delle traduzioni a livello di frase sono metodi efficaci per l'embedding di frasi cross-lingua. Tuttavia, la nostra ricerca indica che l'allineamento a livello di token è altrettanto cruciale negli scenari multilingue, un aspetto che non è stato pienamente esplorato in precedenza. Sulla base delle nostre scoperte, proponiamo un framework di pre-addestramento a doppio allineamento (DAP) per l'embedding di frasi cross-lingua che incorpora sia l'allineamento a livello di frase che a livello di token. Per raggiungere questo obiettivo, introduciamo un nuovo compito di apprendimento della traduzione delle rappresentazioni (RTL), in cui il modello impara a utilizzare la rappresentazione contestualizzata di un token da un lato per ricostruire la sua controparte tradotta. Questo obiettivo di ricostruzione incoraggia il modello a incorporare informazioni di traduzione nella rappresentazione del token. Rispetto ad altri metodi di allineamento a livello di token, come il modeling del linguaggio di traduzione, l'RTL è più adatto per le architetture a doppio encoder e computazionalmente efficiente. Esperimenti estensivi su tre benchmark cross-lingua a livello di frase dimostrano che il nostro approccio può migliorare significativamente l'embedding delle frasi. Il nostro codice è disponibile all'indirizzo https://github.com/ChillingDream/DAP.
English
Recent studies have shown that dual encoder models trained with the
sentence-level translation ranking task are effective methods for cross-lingual
sentence embedding. However, our research indicates that token-level alignment
is also crucial in multilingual scenarios, which has not been fully explored
previously. Based on our findings, we propose a dual-alignment pre-training
(DAP) framework for cross-lingual sentence embedding that incorporates both
sentence-level and token-level alignment. To achieve this, we introduce a novel
representation translation learning (RTL) task, where the model learns to use
one-side contextualized token representation to reconstruct its translation
counterpart. This reconstruction objective encourages the model to embed
translation information into the token representation. Compared to other
token-level alignment methods such as translation language modeling, RTL is
more suitable for dual encoder architectures and is computationally efficient.
Extensive experiments on three sentence-level cross-lingual benchmarks
demonstrate that our approach can significantly improve sentence embedding. Our
code is available at https://github.com/ChillingDream/DAP.