Pré-treinamento de Alinhamento Duplo para Incorporação de Sentenças Translinguísticas
Dual-Alignment Pre-training for Cross-lingual Sentence Embedding
May 16, 2023
Autores: Ziheng Li, Shaohan Huang, Zihan Zhang, Zhi-Hong Deng, Qiang Lou, Haizhen Huang, Jian Jiao, Furu Wei, Weiwei Deng, Qi Zhang
cs.AI
Resumo
Estudos recentes mostraram que modelos de codificador duplo treinados com a tarefa de classificação de tradução em nível de sentença são métodos eficazes para incorporação de sentenças cruzadas. No entanto, nossa pesquisa indica que o alinhamento em nível de token também é crucial em cenários multilíngues, o que não foi totalmente explorado anteriormente. Com base em nossas descobertas, propomos uma estrutura de pré-treinamento de alinhamento duplo (DAP) para incorporação de sentenças cruzadas que incorpora tanto o alinhamento em nível de sentença quanto em nível de token. Para alcançar isso, introduzimos uma nova tarefa de aprendizado de tradução de representação (RTL), na qual o modelo aprende a usar a representação contextualizada de token de um lado para reconstruir sua contraparte de tradução. Esse objetivo de reconstrução incentiva o modelo a incorporar informações de tradução na representação de token. Em comparação com outros métodos de alinhamento em nível de token, como a modelagem de linguagem de tradução, o RTL é mais adequado para arquiteturas de codificador duplo e é computacionalmente eficiente. Experimentos extensivos em três benchmarks cruzados em nível de sentença demonstram que nossa abordagem pode melhorar significativamente a incorporação de sentenças. Nosso código está disponível em https://github.com/ChillingDream/DAP.
English
Recent studies have shown that dual encoder models trained with the
sentence-level translation ranking task are effective methods for cross-lingual
sentence embedding. However, our research indicates that token-level alignment
is also crucial in multilingual scenarios, which has not been fully explored
previously. Based on our findings, we propose a dual-alignment pre-training
(DAP) framework for cross-lingual sentence embedding that incorporates both
sentence-level and token-level alignment. To achieve this, we introduce a novel
representation translation learning (RTL) task, where the model learns to use
one-side contextualized token representation to reconstruct its translation
counterpart. This reconstruction objective encourages the model to embed
translation information into the token representation. Compared to other
token-level alignment methods such as translation language modeling, RTL is
more suitable for dual encoder architectures and is computationally efficient.
Extensive experiments on three sentence-level cross-lingual benchmarks
demonstrate that our approach can significantly improve sentence embedding. Our
code is available at https://github.com/ChillingDream/DAP.