ChatPaper.aiChatPaper

사전 훈련에서의 반영 과정 재고

Rethinking Reflection in Pre-Training

April 5, 2025
저자: Essential AI, Darsh J Shah, Peter Rushton, Somanshu Singla, Mohit Parmar, Kurt Smith, Yash Vanjani, Ashish Vaswani, Adarsh Chaluvaraju, Andrew Hojel, Andrew Ma, Anil Thomas, Anthony Polloreno, Ashish Tanwer, Burhan Drak Sibai, Divya S Mansingka, Divya Shivaprasad, Ishaan Shah, Karl Stratos, Khoi Nguyen, Michael Callahan, Michael Pust, Mrinal Iyer, Philip Monk, Platon Mazarakis, Ritvik Kapila, Saurabh Srivastava, Tim Romanski
cs.AI

초록

언어 모델이 자신의 추론 과정을 반영할 수 있는 능력은 복잡한 문제 해결에 있어 핵심적인 이점을 제공합니다. 최근 연구 대부분은 강화 학습 과정에서 이러한 능력이 어떻게 발달하는지에 초점을 맞추고 있지만, 우리는 이 능력이 실제로 훨씬 이전인 모델의 사전 학습(pre-training) 단계에서부터 나타나기 시작함을 보여줍니다. 이를 연구하기 위해, 우리는 사고의 연쇄(chain-of-thought)에 의도적인 오류를 도입하고, 모델이 이러한 실수를 인식하고 수정함으로써 여전히 정답에 도달할 수 있는지 테스트합니다. 사전 학습의 다양한 단계에서 성능을 추적함으로써, 우리는 이러한 자기 수정 능력이 초기에 나타나고 시간이 지남에 따라 꾸준히 향상됨을 관찰합니다. 예를 들어, 4조 개의 토큰으로 사전 학습된 OLMo2-7B 모델은 우리가 설계한 여섯 가지 자기 반영(self-reflection) 과제에서 자기 수정 능력을 보여줍니다.
English
A language model's ability to reflect on its own reasoning provides a key advantage for solving complex problems. While most recent research has focused on how this ability develops during reinforcement learning, we show that it actually begins to emerge much earlier - during the model's pre-training. To study this, we introduce deliberate errors into chains-of-thought and test whether the model can still arrive at the correct answer by recognizing and correcting these mistakes. By tracking performance across different stages of pre-training, we observe that this self-correcting ability appears early and improves steadily over time. For instance, an OLMo2-7B model pre-trained on 4 trillion tokens displays self-correction on our six self-reflection tasks.

Summary

AI-Generated Summary

PDF776April 8, 2025