ChatPaper.aiChatPaper

사전 학습된 언어 모델에 개조된 순환 구조를 통한 심층 사고 능력 학습

Teaching Pretrained Language Models to Think Deeper with Retrofitted Recurrence

November 10, 2025
저자: Sean McLeish, Ang Li, John Kirchenbauer, Dayal Singh Kalra, Brian R. Bartoldson, Bhavya Kailkhura, Avi Schwarzschild, Jonas Geiping, Tom Goldstein, Micah Goldblum
cs.AI

초록

최근 깊이 순환 언어 모델의 발전은 순환 구조가 학습 시 연산량과 매개변수 수를 추론 시 연산량과 분리할 수 있음을 보여주고 있습니다. 본 연구에서는 기존에 사전 학습된 비순환 언어 모델을 깊이 순환 모델로 변환하는 방법을 탐구합니다. 학습 과정에서 점진적으로 순환을 도입하여 모델의 유효 깊이를 증가시키는 커리큘럼 방식을 적용하면 전체 계산 비용을 줄이면서도 성능을 유지할 수 있음을 발견했습니다. 수학 문제 해결 실험에서 사전 학습된 모델을 순환 모델로 변환했을 때, 기존 비순환 언어 모델을 단순히 사후 학습하는 것보다 동일한 계산 예산 대비 더 우수한 성능을 보였습니다.
English
Recent advances in depth-recurrent language models show that recurrence can decouple train-time compute and parameter count from test-time compute. In this work, we study how to convert existing pretrained non-recurrent language models into depth-recurrent models. We find that using a curriculum of recurrences to increase the effective depth of the model over the course of training preserves performance while reducing total computational cost. In our experiments, on mathematics, we observe that converting pretrained models to recurrent ones results in better performance at a given compute budget than simply post-training the original non-recurrent language model.
PDF162December 2, 2025