Enseigner aux modèles de langage pré-entraînés à penser plus profondément grâce à la récurrence rétroadaptée

papers.abstract

Les récents progrès des modèles de langage à récurrence en profondeur montrent que la récurrence peut découpler le calcul d'entraînement et le nombre de paramètres du calcul d'inférence. Dans ce travail, nous étudions comment convertir des modèles de langage pré-entraînés non récurrents existants en modèles à récurrence en profondeur. Nous constatons qu'utiliser un curriculum de récurrences pour augmenter progressivement la profondeur effective du modèle au cours de l'entraînement préserve les performances tout en réduisant le coût computationnel total. Dans nos expériences en mathématiques, nous observons que la conversion de modèles pré-entraînés en modèles récurrents donne de meilleures performances pour un budget de calcul donné que le simple post-entraînement du modèle de langage non récurrent original.

English

Recent advances in depth-recurrent language models show that recurrence can decouple train-time compute and parameter count from test-time compute. In this work, we study how to convert existing pretrained non-recurrent language models into depth-recurrent models. We find that using a curriculum of recurrences to increase the effective depth of the model over the course of training preserves performance while reducing total computational cost. In our experiments, on mathematics, we observe that converting pretrained models to recurrent ones results in better performance at a given compute budget than simply post-training the original non-recurrent language model.

Enseigner aux modèles de langage pré-entraînés à penser plus profondément grâce à la récurrence rétroadaptée

Teaching Pretrained Language Models to Think Deeper with Retrofitted Recurrence

papers.abstract

Support