Neubewertung der Reflexion im Pre-Training
Rethinking Reflection in Pre-Training
April 5, 2025
Autoren: Essential AI, Darsh J Shah, Peter Rushton, Somanshu Singla, Mohit Parmar, Kurt Smith, Yash Vanjani, Ashish Vaswani, Adarsh Chaluvaraju, Andrew Hojel, Andrew Ma, Anil Thomas, Anthony Polloreno, Ashish Tanwer, Burhan Drak Sibai, Divya S Mansingka, Divya Shivaprasad, Ishaan Shah, Karl Stratos, Khoi Nguyen, Michael Callahan, Michael Pust, Mrinal Iyer, Philip Monk, Platon Mazarakis, Ritvik Kapila, Saurabh Srivastava, Tim Romanski
cs.AI
Zusammenfassung
Die Fähigkeit eines Sprachmodells, über seine eigene Argumentation zu reflektieren, bietet einen entscheidenden Vorteil bei der Lösung komplexer Probleme. Während sich die jüngste Forschung hauptsächlich darauf konzentriert hat, wie sich diese Fähigkeit während des Reinforcement Learning entwickelt, zeigen wir, dass sie tatsächlich viel früher entsteht – bereits während des Pre-Trainings des Modells. Um dies zu untersuchen, führen wir gezielte Fehler in Gedankenketten ein und testen, ob das Modell dennoch die richtige Antwort finden kann, indem es diese Fehler erkennt und korrigiert. Durch die Beobachtung der Leistung in verschiedenen Phasen des Pre-Trainings stellen wir fest, dass diese selbstkorrigierende Fähigkeit früh auftritt und sich kontinuierlich verbessert. Beispielsweise zeigt ein OLMo2-7B-Modell, das mit 4 Billionen Tokens pre-trainiert wurde, Selbstkorrektur in unseren sechs Selbstreflexionsaufgaben.
English
A language model's ability to reflect on its own reasoning provides a key
advantage for solving complex problems. While most recent research has focused
on how this ability develops during reinforcement learning, we show that it
actually begins to emerge much earlier - during the model's pre-training. To
study this, we introduce deliberate errors into chains-of-thought and test
whether the model can still arrive at the correct answer by recognizing and
correcting these mistakes. By tracking performance across different stages of
pre-training, we observe that this self-correcting ability appears early and
improves steadily over time. For instance, an OLMo2-7B model pre-trained on 4
trillion tokens displays self-correction on our six self-reflection tasks.Summary
AI-Generated Summary