Обучение предварительно обученных языковых моделей глубинному мышлению с помощью ретрофитированной рекуррентной архитектуры

Аннотация

Последние достижения в области глубинных рекуррентных языковых моделей демонстрируют, что рекуррентность позволяет разделить вычислительные затраты на этапе обучения и количество параметров от вычислительных затрат на этапе тестирования. В данной работе мы исследуем, как преобразовать существующие предобученные нерекуррентные языковые модели в глубинные рекуррентные модели. Мы обнаружили, что использование учебного плана с постепенным увеличением рекуррентности для наращивания эффективной глубины модели в процессе обучения позволяет сохранить производительность при сокращении общих вычислительных затрат. В наших экспериментах с математическими задачами мы наблюдаем, что преобразование предобученных моделей в рекуррентные приводит к лучшей производительности при заданном вычислительном бюджете по сравнению с простым пост-обучением исходной нерекуррентной языковой модели.

English

Recent advances in depth-recurrent language models show that recurrence can decouple train-time compute and parameter count from test-time compute. In this work, we study how to convert existing pretrained non-recurrent language models into depth-recurrent models. We find that using a curriculum of recurrences to increase the effective depth of the model over the course of training preserves performance while reducing total computational cost. In our experiments, on mathematics, we observe that converting pretrained models to recurrent ones results in better performance at a given compute budget than simply post-training the original non-recurrent language model.

Обучение предварительно обученных языковых моделей глубинному мышлению с помощью ретрофитированной рекуррентной архитектуры

Teaching Pretrained Language Models to Think Deeper with Retrofitted Recurrence

Аннотация

Support