Dual-Alignment-Vortraining für cross-linguale Satz-Embeddings
Dual-Alignment Pre-training for Cross-lingual Sentence Embedding
May 16, 2023
Autoren: Ziheng Li, Shaohan Huang, Zihan Zhang, Zhi-Hong Deng, Qiang Lou, Haizhen Huang, Jian Jiao, Furu Wei, Weiwei Deng, Qi Zhang
cs.AI
Zusammenfassung
Aktuelle Studien haben gezeigt, dass Dual-Encoder-Modelle, die mit der Satzebenen-Übersetzungsrangfolgeaufgabe trainiert werden, effektive Methoden für die cross-linguale Satzembedding darstellen. Unsere Forschung zeigt jedoch, dass die Token-Ebenen-Ausrichtung in multilingualen Szenarien ebenfalls von entscheidender Bedeutung ist, was bisher nicht vollständig untersucht wurde. Basierend auf unseren Erkenntnissen schlagen wir ein Dual-Alignment-Pre-Training (DAP)-Framework für cross-linguale Satzembedding vor, das sowohl die Satzebenen- als auch die Token-Ebenen-Ausrichtung integriert. Um dies zu erreichen, führen wir eine neuartige Repräsentationsübersetzungslernaufgabe (Representation Translation Learning, RTL) ein, bei der das Modell lernt, die kontextualisierte Token-Repräsentation einer Seite zu verwenden, um ihr Übersetzungsgegenstück zu rekonstruieren. Dieses Rekonstruktionsziel ermutigt das Modell, Übersetzungsinformationen in die Token-Repräsentation einzubetten. Im Vergleich zu anderen Token-Ebenen-Ausrichtungsmethoden wie dem Translation Language Modeling ist RTL besser für Dual-Encoder-Architekturen geeignet und recheneffizient. Umfangreiche Experimente auf drei Satzebenen-cross-lingualen Benchmarks zeigen, dass unser Ansatz die Satzembedding signifikant verbessern kann. Unser Code ist unter https://github.com/ChillingDream/DAP verfügbar.
English
Recent studies have shown that dual encoder models trained with the
sentence-level translation ranking task are effective methods for cross-lingual
sentence embedding. However, our research indicates that token-level alignment
is also crucial in multilingual scenarios, which has not been fully explored
previously. Based on our findings, we propose a dual-alignment pre-training
(DAP) framework for cross-lingual sentence embedding that incorporates both
sentence-level and token-level alignment. To achieve this, we introduce a novel
representation translation learning (RTL) task, where the model learns to use
one-side contextualized token representation to reconstruct its translation
counterpart. This reconstruction objective encourages the model to embed
translation information into the token representation. Compared to other
token-level alignment methods such as translation language modeling, RTL is
more suitable for dual encoder architectures and is computationally efficient.
Extensive experiments on three sentence-level cross-lingual benchmarks
demonstrate that our approach can significantly improve sentence embedding. Our
code is available at https://github.com/ChillingDream/DAP.