ChatPaper.aiChatPaper

Heroverweging van Reflectie in Pre-training

Rethinking Reflection in Pre-Training

April 5, 2025
Auteurs: Essential AI, Darsh J Shah, Peter Rushton, Somanshu Singla, Mohit Parmar, Kurt Smith, Yash Vanjani, Ashish Vaswani, Adarsh Chaluvaraju, Andrew Hojel, Andrew Ma, Anil Thomas, Anthony Polloreno, Ashish Tanwer, Burhan Drak Sibai, Divya S Mansingka, Divya Shivaprasad, Ishaan Shah, Karl Stratos, Khoi Nguyen, Michael Callahan, Michael Pust, Mrinal Iyer, Philip Monk, Platon Mazarakis, Ritvik Kapila, Saurabh Srivastava, Tim Romanski
cs.AI

Samenvatting

Het vermogen van een taalmodel om te reflecteren op zijn eigen redenering biedt een belangrijk voordeel bij het oplossen van complexe problemen. Hoewel het meeste recente onderzoek zich heeft gericht op hoe dit vermogen zich ontwikkelt tijdens reinforcement learning, laten wij zien dat het eigenlijk veel eerder begint te ontstaan - tijdens de pre-training van het model. Om dit te bestuderen, introduceren we opzettelijke fouten in ketens van redeneringen en testen we of het model nog steeds tot het juiste antwoord kan komen door deze fouten te herkennen en te corrigeren. Door de prestaties te volgen tijdens verschillende fasen van pre-training, observeren we dat dit zelfcorrigerende vermogen vroeg verschijnt en gestaag verbetert in de loop van de tijd. Zo vertoont een OLMo2-7B model dat is gepre-traind op 4 biljoen tokens zelfcorrectie bij onze zes zelfreflectietaken.
English
A language model's ability to reflect on its own reasoning provides a key advantage for solving complex problems. While most recent research has focused on how this ability develops during reinforcement learning, we show that it actually begins to emerge much earlier - during the model's pre-training. To study this, we introduce deliberate errors into chains-of-thought and test whether the model can still arrive at the correct answer by recognizing and correcting these mistakes. By tracking performance across different stages of pre-training, we observe that this self-correcting ability appears early and improves steadily over time. For instance, an OLMo2-7B model pre-trained on 4 trillion tokens displays self-correction on our six self-reflection tasks.

Summary

AI-Generated Summary

PDF776April 8, 2025