Het aanleren van dieper denken aan vooraf getrainde taalmodellen met gerevitaliseerde recurrentie
Teaching Pretrained Language Models to Think Deeper with Retrofitted Recurrence
November 10, 2025
Auteurs: Sean McLeish, Ang Li, John Kirchenbauer, Dayal Singh Kalra, Brian R. Bartoldson, Bhavya Kailkhura, Avi Schwarzschild, Jonas Geiping, Tom Goldstein, Micah Goldblum
cs.AI
Samenvatting
Recente vooruitgang in diepte-recurrente taalmodel(len) toont aan dat recurrentie de rekentijd tijdens training en het aantal parameters kan ontkoppelen van de rekentijd tijdens het testen. In dit werk onderzoeken we hoe bestaande voorgetrainde niet-recurrente taalmodel(len) kunnen worden omgezet in diepte-recurrente modellen. Wij stellen vast dat het gebruik van een curriculum van recurrenties om de effectieve diepte van het model gedurende de training te vergroten, de prestaties behoudt terwijl de totale rekenkosten worden verlaagd. In onze experimenten, uitgevoerd op wiskundige taken, observeren we dat het omzetten van voorgetrainde modellen naar recurrentie modellen resulteert in betere prestaties bij een bepaald rekenbudget dan simpelweg post-training van het oorspronkelijke niet-recurrente taalmodel.
English
Recent advances in depth-recurrent language models show that recurrence can
decouple train-time compute and parameter count from test-time compute. In this
work, we study how to convert existing pretrained non-recurrent language models
into depth-recurrent models. We find that using a curriculum of recurrences to
increase the effective depth of the model over the course of training preserves
performance while reducing total computational cost. In our experiments, on
mathematics, we observe that converting pretrained models to recurrent ones
results in better performance at a given compute budget than simply
post-training the original non-recurrent language model.