Het aanleren van dieper denken aan vooraf getrainde taalmodellen met gerevitaliseerde recurrentie

Samenvatting

Recente vooruitgang in diepte-recurrente taalmodel(len) toont aan dat recurrentie de rekentijd tijdens training en het aantal parameters kan ontkoppelen van de rekentijd tijdens het testen. In dit werk onderzoeken we hoe bestaande voorgetrainde niet-recurrente taalmodel(len) kunnen worden omgezet in diepte-recurrente modellen. Wij stellen vast dat het gebruik van een curriculum van recurrenties om de effectieve diepte van het model gedurende de training te vergroten, de prestaties behoudt terwijl de totale rekenkosten worden verlaagd. In onze experimenten, uitgevoerd op wiskundige taken, observeren we dat het omzetten van voorgetrainde modellen naar recurrentie modellen resulteert in betere prestaties bij een bepaald rekenbudget dan simpelweg post-training van het oorspronkelijke niet-recurrente taalmodel.

English

Recent advances in depth-recurrent language models show that recurrence can decouple train-time compute and parameter count from test-time compute. In this work, we study how to convert existing pretrained non-recurrent language models into depth-recurrent models. We find that using a curriculum of recurrences to increase the effective depth of the model over the course of training preserves performance while reducing total computational cost. In our experiments, on mathematics, we observe that converting pretrained models to recurrent ones results in better performance at a given compute budget than simply post-training the original non-recurrent language model.

Het aanleren van dieper denken aan vooraf getrainde taalmodellen met gerevitaliseerde recurrentie

Teaching Pretrained Language Models to Think Deeper with Retrofitted Recurrence

Samenvatting

Support