Preentrenamiento de Alineación Dual para Incrustaciones de Oraciones Translingüísticas
Dual-Alignment Pre-training for Cross-lingual Sentence Embedding
May 16, 2023
Autores: Ziheng Li, Shaohan Huang, Zihan Zhang, Zhi-Hong Deng, Qiang Lou, Haizhen Huang, Jian Jiao, Furu Wei, Weiwei Deng, Qi Zhang
cs.AI
Resumen
Estudios recientes han demostrado que los modelos de codificador dual entrenados con la tarea de clasificación de traducciones a nivel de oración son métodos efectivos para la incrustación de oraciones multilingües. Sin embargo, nuestra investigación indica que la alineación a nivel de token también es crucial en escenarios multilingües, un aspecto que no ha sido explorado completamente con anterioridad. Basándonos en nuestros hallazgos, proponemos un marco de preentrenamiento de doble alineación (DAP, por sus siglas en inglés) para la incrustación de oraciones multilingües que incorpora tanto la alineación a nivel de oración como a nivel de token. Para lograr esto, introducimos una novedosa tarea de aprendizaje de traducción de representaciones (RTL, por sus siglas en inglés), donde el modelo aprende a utilizar la representación contextualizada de un token de un lado para reconstruir su contraparte traducida. Este objetivo de reconstrucción fomenta que el modelo incorpore información de traducción en la representación del token. En comparación con otros métodos de alineación a nivel de token, como el modelado de lenguaje de traducción, RTL es más adecuado para arquitecturas de codificador dual y es computacionalmente eficiente. Experimentos exhaustivos en tres puntos de referencia multilingües a nivel de oración demuestran que nuestro enfoque puede mejorar significativamente la incrustación de oraciones. Nuestro código está disponible en https://github.com/ChillingDream/DAP.
English
Recent studies have shown that dual encoder models trained with the
sentence-level translation ranking task are effective methods for cross-lingual
sentence embedding. However, our research indicates that token-level alignment
is also crucial in multilingual scenarios, which has not been fully explored
previously. Based on our findings, we propose a dual-alignment pre-training
(DAP) framework for cross-lingual sentence embedding that incorporates both
sentence-level and token-level alignment. To achieve this, we introduce a novel
representation translation learning (RTL) task, where the model learns to use
one-side contextualized token representation to reconstruct its translation
counterpart. This reconstruction objective encourages the model to embed
translation information into the token representation. Compared to other
token-level alignment methods such as translation language modeling, RTL is
more suitable for dual encoder architectures and is computationally efficient.
Extensive experiments on three sentence-level cross-lingual benchmarks
demonstrate that our approach can significantly improve sentence embedding. Our
code is available at https://github.com/ChillingDream/DAP.