ChatPaper.aiChatPaper

Das Lehren vortrainierter Sprachmodelle zum tieferen Denken durch nachgerüstete Rekurrenz

Teaching Pretrained Language Models to Think Deeper with Retrofitted Recurrence

November 10, 2025
papers.authors: Sean McLeish, Ang Li, John Kirchenbauer, Dayal Singh Kalra, Brian R. Bartoldson, Bhavya Kailkhura, Avi Schwarzschild, Jonas Geiping, Tom Goldstein, Micah Goldblum
cs.AI

papers.abstract

Jüngste Fortschritte bei tiefenrekurrenten Sprachmodellen zeigen, dass Rekurrenz den Trainingsrechenaufwand und die Parameteranzahl vom Testzeit-Rechenaufwand entkoppeln kann. In dieser Arbeit untersuchen wir, wie sich bestehende vortrainierte nicht-rekurrente Sprachmodelle in tiefenrekurrente Modelle umwandeln lassen. Wir stellen fest, dass der Einsatz eines Curriculums mit zunehmender Rekurrenz zur Steigerung der effektiven Modelltiefe im Trainingsverlauf die Leistung erhält und gleichzeitig die gesamten Rechenkosten senkt. In unseren Experimenten auf mathematischem Gebiet beobachten wir, dass die Umwandlung vortrainierter Modelle in rekurrente Modelle bei gegebenem Rechenbudget zu besseren Ergebnissen führt als ein einfaches Nachtrainieren des ursprünglichen nicht-rekurrenten Sprachmodells.
English
Recent advances in depth-recurrent language models show that recurrence can decouple train-time compute and parameter count from test-time compute. In this work, we study how to convert existing pretrained non-recurrent language models into depth-recurrent models. We find that using a curriculum of recurrences to increase the effective depth of the model over the course of training preserves performance while reducing total computational cost. In our experiments, on mathematics, we observe that converting pretrained models to recurrent ones results in better performance at a given compute budget than simply post-training the original non-recurrent language model.
PDF162December 2, 2025