Обучение предварительно обученных языковых моделей глубинному мышлению с помощью ретрофитированной рекуррентной архитектуры
Teaching Pretrained Language Models to Think Deeper with Retrofitted Recurrence
November 10, 2025
Авторы: Sean McLeish, Ang Li, John Kirchenbauer, Dayal Singh Kalra, Brian R. Bartoldson, Bhavya Kailkhura, Avi Schwarzschild, Jonas Geiping, Tom Goldstein, Micah Goldblum
cs.AI
Аннотация
Последние достижения в области глубинных рекуррентных языковых моделей демонстрируют, что рекуррентность позволяет разделить вычислительные затраты на этапе обучения и количество параметров от вычислительных затрат на этапе тестирования. В данной работе мы исследуем, как преобразовать существующие предобученные нерекуррентные языковые модели в глубинные рекуррентные модели. Мы обнаружили, что использование учебного плана с постепенным увеличением рекуррентности для наращивания эффективной глубины модели в процессе обучения позволяет сохранить производительность при сокращении общих вычислительных затрат. В наших экспериментах с математическими задачами мы наблюдаем, что преобразование предобученных моделей в рекуррентные приводит к лучшей производительности при заданном вычислительном бюджете по сравнению с простым пост-обучением исходной нерекуррентной языковой модели.
English
Recent advances in depth-recurrent language models show that recurrence can
decouple train-time compute and parameter count from test-time compute. In this
work, we study how to convert existing pretrained non-recurrent language models
into depth-recurrent models. We find that using a curriculum of recurrences to
increase the effective depth of the model over the course of training preserves
performance while reducing total computational cost. In our experiments, on
mathematics, we observe that converting pretrained models to recurrent ones
results in better performance at a given compute budget than simply
post-training the original non-recurrent language model.