Двойственное выравнивание предварительного обучения для кросс-языкового векторного представления предложений
Dual-Alignment Pre-training for Cross-lingual Sentence Embedding
May 16, 2023
Авторы: Ziheng Li, Shaohan Huang, Zihan Zhang, Zhi-Hong Deng, Qiang Lou, Haizhen Huang, Jian Jiao, Furu Wei, Weiwei Deng, Qi Zhang
cs.AI
Аннотация
Недавние исследования показали, что модели с двойным кодировщиком, обученные на задаче ранжирования переводов на уровне предложений, являются эффективными методами для кросс-языкового векторного представления предложений. Однако наши исследования указывают на то, что выравнивание на уровне токенов также играет важную роль в многоязычных сценариях, что ранее не было полностью изучено. На основе наших выводов мы предлагаем фреймворк предварительного обучения с двойным выравниванием (DAP) для кросс-языкового векторного представления предложений, который включает как выравнивание на уровне предложений, так и на уровне токенов. Для достижения этого мы вводим новую задачу обучения переводу представлений (RTL), в которой модель учится использовать контекстуализированное представление токена с одной стороны для реконструкции его перевода на другой стороне. Эта задача реконструкции побуждает модель встраивать информацию о переводе в представление токена. По сравнению с другими методами выравнивания на уровне токенов, такими как моделирование перевода, RTL более подходит для архитектур с двойным кодировщиком и является вычислительно эффективным. Многочисленные эксперименты на трех кросс-языковых бенчмарках уровня предложений демонстрируют, что наш подход может значительно улучшить векторное представление предложений. Наш код доступен по адресу https://github.com/ChillingDream/DAP.
English
Recent studies have shown that dual encoder models trained with the
sentence-level translation ranking task are effective methods for cross-lingual
sentence embedding. However, our research indicates that token-level alignment
is also crucial in multilingual scenarios, which has not been fully explored
previously. Based on our findings, we propose a dual-alignment pre-training
(DAP) framework for cross-lingual sentence embedding that incorporates both
sentence-level and token-level alignment. To achieve this, we introduce a novel
representation translation learning (RTL) task, where the model learns to use
one-side contextualized token representation to reconstruct its translation
counterpart. This reconstruction objective encourages the model to embed
translation information into the token representation. Compared to other
token-level alignment methods such as translation language modeling, RTL is
more suitable for dual encoder architectures and is computationally efficient.
Extensive experiments on three sentence-level cross-lingual benchmarks
demonstrate that our approach can significantly improve sentence embedding. Our
code is available at https://github.com/ChillingDream/DAP.