ChatPaper.aiChatPaper

Repenser la réflexion dans le pré-entraînement

Rethinking Reflection in Pre-Training

April 5, 2025
Auteurs: Essential AI, Darsh J Shah, Peter Rushton, Somanshu Singla, Mohit Parmar, Kurt Smith, Yash Vanjani, Ashish Vaswani, Adarsh Chaluvaraju, Andrew Hojel, Andrew Ma, Anil Thomas, Anthony Polloreno, Ashish Tanwer, Burhan Drak Sibai, Divya S Mansingka, Divya Shivaprasad, Ishaan Shah, Karl Stratos, Khoi Nguyen, Michael Callahan, Michael Pust, Mrinal Iyer, Philip Monk, Platon Mazarakis, Ritvik Kapila, Saurabh Srivastava, Tim Romanski
cs.AI

Résumé

La capacité d'un modèle de langage à réfléchir sur son propre raisonnement constitue un avantage clé pour résoudre des problèmes complexes. Alors que la plupart des recherches récentes se sont concentrées sur la manière dont cette capacité se développe pendant l'apprentissage par renforcement, nous montrons qu'elle commence en réalité à émerger bien plus tôt - pendant la phase de pré-entraînement du modèle. Pour étudier ce phénomène, nous introduisons des erreurs délibérées dans des chaînes de raisonnement et testons si le modèle peut tout de même parvenir à la bonne réponse en reconnaissant et en corrigeant ces erreurs. En suivant les performances à différentes étapes du pré-entraînement, nous observons que cette capacité d'auto-correction apparaît tôt et s'améliore régulièrement au fil du temps. Par exemple, un modèle OLMo2-7B pré-entraîné sur 4 billions de tokens démontre une capacité d'auto-correction sur nos six tâches de réflexion personnelle.
English
A language model's ability to reflect on its own reasoning provides a key advantage for solving complex problems. While most recent research has focused on how this ability develops during reinforcement learning, we show that it actually begins to emerge much earlier - during the model's pre-training. To study this, we introduce deliberate errors into chains-of-thought and test whether the model can still arrive at the correct answer by recognizing and correcting these mistakes. By tracking performance across different stages of pre-training, we observe that this self-correcting ability appears early and improves steadily over time. For instance, an OLMo2-7B model pre-trained on 4 trillion tokens displays self-correction on our six self-reflection tasks.
PDF796April 8, 2025