ChatPaper.aiChatPaper

능동적 망각을 통한 사전 학습을 통해 언어 가소성 향상하기

Improving Language Plasticity via Pretraining with Active Forgetting

July 3, 2023
저자: Yihong Chen, Kelly Marchisio, Roberta Raileanu, David Ifeoluwa Adelani, Pontus Stenetor, Sebastian Riedel, Mikel Artetx
cs.AI

초록

사전 학습된 언어 모델(PLM)은 현재 자연어 처리의 주요 모델로 자리 잡고 있습니다. 이러한 모델들이 다운스트림 작업에서 인상적인 성능을 보이지만, 새로운 언어에 PLM을 적용하는 것은 어려울 수 있으며, 이는 그들의 능력을 보편적으로 접근 가능하게 만드는 데 걸림돌이 됩니다. 기존 연구에서는 새로운 언어를 위해 새로운 임베딩 레이어를 학습함으로써 이 문제를 해결할 수 있음을 보여주었지만, 이 방법은 데이터와 계산 효율성 측면에서 비효율적입니다. 우리는 사전 학습 과정에서 능동적 망각 메커니즘을 사용하여 새로운 언어에 빠르게 적응할 수 있는 PLM을 만드는 간단한 방법을 제안합니다. 구체적으로, 사전 학습 중 매 K번의 업데이트마다 임베딩 레이어를 재설정함으로써, PLM이 제한된 수의 업데이트 내에서 새로운 임베딩을 학습하는 능력을 향상시키도록 유도하며, 이는 메타러닝 효과와 유사합니다. RoBERTa를 사용한 실험 결과, 우리의 망각 메커니즘으로 사전 학습된 모델들은 언어 적응 과정에서 더 빠른 수렴을 보일 뿐만 아니라, 특히 영어와 거리가 먼 언어들에 대해 저데이터 환경에서 표준 모델들을 능가하는 성능을 보였습니다.
English
Pretrained language models (PLMs) are today the primary model for natural language processing. Despite their impressive downstream performance, it can be difficult to apply PLMs to new languages, a barrier to making their capabilities universally accessible. While prior work has shown it possible to address this issue by learning a new embedding layer for the new language, doing so is both data and compute inefficient. We propose to use an active forgetting mechanism during pretraining, as a simple way of creating PLMs that can quickly adapt to new languages. Concretely, by resetting the embedding layer every K updates during pretraining, we encourage the PLM to improve its ability of learning new embeddings within a limited number of updates, similar to a meta-learning effect. Experiments with RoBERTa show that models pretrained with our forgetting mechanism not only demonstrate faster convergence during language adaptation but also outperform standard ones in a low-data regime, particularly for languages that are distant from English.
PDF60December 15, 2024