ChatPaper.aiChatPaper

Переосмысление рефлексии в предварительном обучении

Rethinking Reflection in Pre-Training

April 5, 2025
Авторы: Essential AI, Darsh J Shah, Peter Rushton, Somanshu Singla, Mohit Parmar, Kurt Smith, Yash Vanjani, Ashish Vaswani, Adarsh Chaluvaraju, Andrew Hojel, Andrew Ma, Anil Thomas, Anthony Polloreno, Ashish Tanwer, Burhan Drak Sibai, Divya S Mansingka, Divya Shivaprasad, Ishaan Shah, Karl Stratos, Khoi Nguyen, Michael Callahan, Michael Pust, Mrinal Iyer, Philip Monk, Platon Mazarakis, Ritvik Kapila, Saurabh Srivastava, Tim Romanski
cs.AI

Аннотация

Способность языковой модели анализировать собственные рассуждения предоставляет ключевое преимущество для решения сложных задач. Хотя большинство недавних исследований сосредоточено на том, как эта способность развивается в процессе обучения с подкреплением, мы показываем, что она начинает проявляться гораздо раньше — на этапе предварительного обучения модели. Для изучения этого мы вносим преднамеренные ошибки в цепочки рассуждений и проверяем, может ли модель прийти к правильному ответу, распознавая и исправляя эти ошибки. Отслеживая производительность на разных этапах предварительного обучения, мы наблюдаем, что эта способность к самокоррекции появляется рано и постепенно улучшается со временем. Например, модель OLMo2-7B, предварительно обученная на 4 триллионах токенов, демонстрирует самокоррекцию в наших шести задачах на саморефлексию.
English
A language model's ability to reflect on its own reasoning provides a key advantage for solving complex problems. While most recent research has focused on how this ability develops during reinforcement learning, we show that it actually begins to emerge much earlier - during the model's pre-training. To study this, we introduce deliberate errors into chains-of-thought and test whether the model can still arrive at the correct answer by recognizing and correcting these mistakes. By tracking performance across different stages of pre-training, we observe that this self-correcting ability appears early and improves steadily over time. For instance, an OLMo2-7B model pre-trained on 4 trillion tokens displays self-correction on our six self-reflection tasks.

Summary

AI-Generated Summary

PDF776April 8, 2025