Cross-linguale supervisie verbetert het vooraf trainen van grote taalmodelen.

Samenvatting

De recente snelle vooruitgang in het vooraf trainen van grote taalmodel(len) is gebaseerd op het gebruik van zelfgesuperviseerde taalmodelleerdoelen zoals voorspelling van het volgende token of span corruptie. Aan de andere kant worden machinevertalingssystemen meestal getraind met behulp van cross-linguale supervisie die uitgelijnde gegevens tussen bron- en doeltalen vereist. Wij tonen aan dat het vooraf trainen van grote taalmodel(len) op een mengsel van een zelfgesuperviseerd taalmodelleerdoel en het gesuperviseerde machinevertalingsdoel, en dus het opnemen van cross-linguale parallelle gegevens tijdens het vooraf trainen, modellen oplevert met betere in-context leer vaardigheden. Omdat vooraf trainen een zeer resource-intensief proces is en een grid search naar de beste mengverhouding tussen de twee doelen buitensporig duur is, stellen we een eenvoudige maar effectieve strategie voor om deze tijdens het vooraf trainen te leren.

English

The recent rapid progress in pre-training Large Language Models has relied on using self-supervised language modeling objectives like next token prediction or span corruption. On the other hand, Machine Translation Systems are mostly trained using cross-lingual supervision that requires aligned data between source and target languages. We demonstrate that pre-training Large Language Models on a mixture of a self-supervised Language Modeling objective and the supervised Machine Translation objective, therefore including cross-lingual parallel data during pre-training, yields models with better in-context learning abilities. As pre-training is a very resource-intensive process and a grid search on the best mixing ratio between the two objectives is prohibitively expensive, we propose a simple yet effective strategy to learn it during pre-training.

Cross-linguale supervisie verbetert het vooraf trainen van grote taalmodelen.

Cross-Lingual Supervision improves Large Language Models Pre-training

Samenvatting

Support