Enseigner aux modèles de langage pré-entraînés à penser plus profondément grâce à la récurrence rétroadaptée
Teaching Pretrained Language Models to Think Deeper with Retrofitted Recurrence
November 10, 2025
papers.authors: Sean McLeish, Ang Li, John Kirchenbauer, Dayal Singh Kalra, Brian R. Bartoldson, Bhavya Kailkhura, Avi Schwarzschild, Jonas Geiping, Tom Goldstein, Micah Goldblum
cs.AI
papers.abstract
Les récents progrès des modèles de langage à récurrence en profondeur montrent que la récurrence peut découpler le calcul d'entraînement et le nombre de paramètres du calcul d'inférence. Dans ce travail, nous étudions comment convertir des modèles de langage pré-entraînés non récurrents existants en modèles à récurrence en profondeur. Nous constatons qu'utiliser un curriculum de récurrences pour augmenter progressivement la profondeur effective du modèle au cours de l'entraînement préserve les performances tout en réduisant le coût computationnel total. Dans nos expériences en mathématiques, nous observons que la conversion de modèles pré-entraînés en modèles récurrents donne de meilleures performances pour un budget de calcul donné que le simple post-entraînement du modèle de langage non récurrent original.
English
Recent advances in depth-recurrent language models show that recurrence can
decouple train-time compute and parameter count from test-time compute. In this
work, we study how to convert existing pretrained non-recurrent language models
into depth-recurrent models. We find that using a curriculum of recurrences to
increase the effective depth of the model over the course of training preserves
performance while reducing total computational cost. In our experiments, on
mathematics, we observe that converting pretrained models to recurrent ones
results in better performance at a given compute budget than simply
post-training the original non-recurrent language model.