Dual-Alignment-Vortraining für cross-linguale Satz-Embeddings

Zusammenfassung

Aktuelle Studien haben gezeigt, dass Dual-Encoder-Modelle, die mit der Satzebenen-Übersetzungsrangfolgeaufgabe trainiert werden, effektive Methoden für die cross-linguale Satzembedding darstellen. Unsere Forschung zeigt jedoch, dass die Token-Ebenen-Ausrichtung in multilingualen Szenarien ebenfalls von entscheidender Bedeutung ist, was bisher nicht vollständig untersucht wurde. Basierend auf unseren Erkenntnissen schlagen wir ein Dual-Alignment-Pre-Training (DAP)-Framework für cross-linguale Satzembedding vor, das sowohl die Satzebenen- als auch die Token-Ebenen-Ausrichtung integriert. Um dies zu erreichen, führen wir eine neuartige Repräsentationsübersetzungslernaufgabe (Representation Translation Learning, RTL) ein, bei der das Modell lernt, die kontextualisierte Token-Repräsentation einer Seite zu verwenden, um ihr Übersetzungsgegenstück zu rekonstruieren. Dieses Rekonstruktionsziel ermutigt das Modell, Übersetzungsinformationen in die Token-Repräsentation einzubetten. Im Vergleich zu anderen Token-Ebenen-Ausrichtungsmethoden wie dem Translation Language Modeling ist RTL besser für Dual-Encoder-Architekturen geeignet und recheneffizient. Umfangreiche Experimente auf drei Satzebenen-cross-lingualen Benchmarks zeigen, dass unser Ansatz die Satzembedding signifikant verbessern kann. Unser Code ist unter https://github.com/ChillingDream/DAP verfügbar.

English

Recent studies have shown that dual encoder models trained with the sentence-level translation ranking task are effective methods for cross-lingual sentence embedding. However, our research indicates that token-level alignment is also crucial in multilingual scenarios, which has not been fully explored previously. Based on our findings, we propose a dual-alignment pre-training (DAP) framework for cross-lingual sentence embedding that incorporates both sentence-level and token-level alignment. To achieve this, we introduce a novel representation translation learning (RTL) task, where the model learns to use one-side contextualized token representation to reconstruct its translation counterpart. This reconstruction objective encourages the model to embed translation information into the token representation. Compared to other token-level alignment methods such as translation language modeling, RTL is more suitable for dual encoder architectures and is computationally efficient. Extensive experiments on three sentence-level cross-lingual benchmarks demonstrate that our approach can significantly improve sentence embedding. Our code is available at https://github.com/ChillingDream/DAP.

Dual-Alignment-Vortraining für cross-linguale Satz-Embeddings

Dual-Alignment Pre-training for Cross-lingual Sentence Embedding

Zusammenfassung

Support