ChatPaper.aiChatPaper

事前学習におけるリフレクションの再考

Rethinking Reflection in Pre-Training

April 5, 2025
著者: Essential AI, Darsh J Shah, Peter Rushton, Somanshu Singla, Mohit Parmar, Kurt Smith, Yash Vanjani, Ashish Vaswani, Adarsh Chaluvaraju, Andrew Hojel, Andrew Ma, Anil Thomas, Anthony Polloreno, Ashish Tanwer, Burhan Drak Sibai, Divya S Mansingka, Divya Shivaprasad, Ishaan Shah, Karl Stratos, Khoi Nguyen, Michael Callahan, Michael Pust, Mrinal Iyer, Philip Monk, Platon Mazarakis, Ritvik Kapila, Saurabh Srivastava, Tim Romanski
cs.AI

要旨

言語モデルが自身の推論を省察する能力は、複雑な問題解決において重要な利点を提供する。最近の研究の多くは、この能力が強化学習中にどのように発達するかに焦点を当てているが、我々はそれが実際にははるかに早い段階、すなわちモデルの事前学習中に現れ始めることを示す。これを研究するため、我々は連鎖思考(chain-of-thought)に意図的な誤りを導入し、モデルがこれらの誤りを認識して修正することで正しい答えにたどり着けるかどうかをテストする。事前学習の異なる段階でのパフォーマンスを追跡することで、この自己修正能力が早期に現れ、時間とともに着実に向上することを観察した。例えば、4兆トークンで事前学習されたOLMo2-7Bモデルは、我々の6つの自己省察タスクにおいて自己修正を示した。
English
A language model's ability to reflect on its own reasoning provides a key advantage for solving complex problems. While most recent research has focused on how this ability develops during reinforcement learning, we show that it actually begins to emerge much earlier - during the model's pre-training. To study this, we introduce deliberate errors into chains-of-thought and test whether the model can still arrive at the correct answer by recognizing and correcting these mistakes. By tracking performance across different stages of pre-training, we observe that this self-correcting ability appears early and improves steadily over time. For instance, an OLMo2-7B model pre-trained on 4 trillion tokens displays self-correction on our six self-reflection tasks.

Summary

AI-Generated Summary

PDF776April 8, 2025