事前学習済み言語モデルにリトロフィット型再帰性による深層思考を教える
Teaching Pretrained Language Models to Think Deeper with Retrofitted Recurrence
November 10, 2025
著者: Sean McLeish, Ang Li, John Kirchenbauer, Dayal Singh Kalra, Brian R. Bartoldson, Bhavya Kailkhura, Avi Schwarzschild, Jonas Geiping, Tom Goldstein, Micah Goldblum
cs.AI
要旨
近年の深層回帰型言語モデルの進歩により、回帰構造が訓練時の計算量とパラメータ数を推論時の計算量から分離可能であることが示されている。本研究では、既存の事前学習済み非回帰言語モデルを深層回帰モデルに変換する方法を検討する。訓練過程でモデルの実効的な深さを段階的に増加させる回帰カリキュラムを採用することで、総計算コストを削減しつつ性能を維持できることを明らかにした。数学分野における実験では、事前学習済みモデルを回帰型に変換することで、元の非回帰言語モデルを単純に事後訓練する場合と比較して、同計算予算条件下でより優れた性能が得られることが確認された。
English
Recent advances in depth-recurrent language models show that recurrence can
decouple train-time compute and parameter count from test-time compute. In this
work, we study how to convert existing pretrained non-recurrent language models
into depth-recurrent models. We find that using a curriculum of recurrences to
increase the effective depth of the model over the course of training preserves
performance while reducing total computational cost. In our experiments, on
mathematics, we observe that converting pretrained models to recurrent ones
results in better performance at a given compute budget than simply
post-training the original non-recurrent language model.