Переосмысление рефлексии в предварительном обучении

Аннотация

Способность языковой модели анализировать собственные рассуждения предоставляет ключевое преимущество для решения сложных задач. Хотя большинство недавних исследований сосредоточено на том, как эта способность развивается в процессе обучения с подкреплением, мы показываем, что она начинает проявляться гораздо раньше — на этапе предварительного обучения модели. Для изучения этого мы вносим преднамеренные ошибки в цепочки рассуждений и проверяем, может ли модель прийти к правильному ответу, распознавая и исправляя эти ошибки. Отслеживая производительность на разных этапах предварительного обучения, мы наблюдаем, что эта способность к самокоррекции появляется рано и постепенно улучшается со временем. Например, модель OLMo2-7B, предварительно обученная на 4 триллионах токенов, демонстрирует самокоррекцию в наших шести задачах на саморефлексию.

English

A language model's ability to reflect on its own reasoning provides a key advantage for solving complex problems. While most recent research has focused on how this ability develops during reinforcement learning, we show that it actually begins to emerge much earlier - during the model's pre-training. To study this, we introduce deliberate errors into chains-of-thought and test whether the model can still arrive at the correct answer by recognizing and correcting these mistakes. By tracking performance across different stages of pre-training, we observe that this self-correcting ability appears early and improves steadily over time. For instance, an OLMo2-7B model pre-trained on 4 trillion tokens displays self-correction on our six self-reflection tasks.

Переосмысление рефлексии в предварительном обучении

Rethinking Reflection in Pre-Training

Аннотация

Support