ChatPaper.aiChatPaper

事前学習済み言語モデルにリトロフィット型再帰性による深層思考を教える

Teaching Pretrained Language Models to Think Deeper with Retrofitted Recurrence

November 10, 2025
著者: Sean McLeish, Ang Li, John Kirchenbauer, Dayal Singh Kalra, Brian R. Bartoldson, Bhavya Kailkhura, Avi Schwarzschild, Jonas Geiping, Tom Goldstein, Micah Goldblum
cs.AI

要旨

近年の深層回帰型言語モデルの進歩により、回帰構造が訓練時の計算量とパラメータ数を推論時の計算量から分離可能であることが示されている。本研究では、既存の事前学習済み非回帰言語モデルを深層回帰モデルに変換する方法を検討する。訓練過程でモデルの実効的な深さを段階的に増加させる回帰カリキュラムを採用することで、総計算コストを削減しつつ性能を維持できることを明らかにした。数学分野における実験では、事前学習済みモデルを回帰型に変換することで、元の非回帰言語モデルを単純に事後訓練する場合と比較して、同計算予算条件下でより優れた性能が得られることが確認された。
English
Recent advances in depth-recurrent language models show that recurrence can decouple train-time compute and parameter count from test-time compute. In this work, we study how to convert existing pretrained non-recurrent language models into depth-recurrent models. We find that using a curriculum of recurrences to increase the effective depth of the model over the course of training preserves performance while reducing total computational cost. In our experiments, on mathematics, we observe that converting pretrained models to recurrent ones results in better performance at a given compute budget than simply post-training the original non-recurrent language model.
PDF162December 2, 2025