クロスリンガル文埋め込みのためのデュアルアライメント事前学習
Dual-Alignment Pre-training for Cross-lingual Sentence Embedding
May 16, 2023
著者: Ziheng Li, Shaohan Huang, Zihan Zhang, Zhi-Hong Deng, Qiang Lou, Haizhen Huang, Jian Jiao, Furu Wei, Weiwei Deng, Qi Zhang
cs.AI
要旨
最近の研究では、文レベルの翻訳ランキングタスクで学習されたデュアルエンコーダモデルが、言語間の文埋め込みにおいて有効な手法であることが示されています。しかし、私たちの研究によると、トークンレベルのアライメントも多言語シナリオにおいて重要であり、これまで十分に検討されていませんでした。私たちの知見に基づき、文レベルとトークンレベルの両方のアライメントを組み込んだ、言語間文埋め込みのためのデュアルアライメント事前学習(DAP)フレームワークを提案します。これを実現するために、モデルが一方の文脈化されたトークン表現を使用して、その翻訳対応部分を再構築することを学習する新しい表現翻訳学習(RTL)タスクを導入します。この再構築目的により、モデルは翻訳情報をトークン表現に埋め込むことが促されます。翻訳言語モデリングなどの他のトークンレベルのアライメント手法と比較して、RTLはデュアルエンコーダアーキテクチャに適しており、計算効率が高いです。3つの文レベルの言語間ベンチマークでの広範な実験により、私たちのアプローチが文埋め込みを大幅に改善できることが実証されています。私たちのコードはhttps://github.com/ChillingDream/DAPで公開されています。
English
Recent studies have shown that dual encoder models trained with the
sentence-level translation ranking task are effective methods for cross-lingual
sentence embedding. However, our research indicates that token-level alignment
is also crucial in multilingual scenarios, which has not been fully explored
previously. Based on our findings, we propose a dual-alignment pre-training
(DAP) framework for cross-lingual sentence embedding that incorporates both
sentence-level and token-level alignment. To achieve this, we introduce a novel
representation translation learning (RTL) task, where the model learns to use
one-side contextualized token representation to reconstruct its translation
counterpart. This reconstruction objective encourages the model to embed
translation information into the token representation. Compared to other
token-level alignment methods such as translation language modeling, RTL is
more suitable for dual encoder architectures and is computationally efficient.
Extensive experiments on three sentence-level cross-lingual benchmarks
demonstrate that our approach can significantly improve sentence embedding. Our
code is available at https://github.com/ChillingDream/DAP.