Repensando a Reflexão no Pré-Treinamento
Rethinking Reflection in Pre-Training
April 5, 2025
Autores: Essential AI, Darsh J Shah, Peter Rushton, Somanshu Singla, Mohit Parmar, Kurt Smith, Yash Vanjani, Ashish Vaswani, Adarsh Chaluvaraju, Andrew Hojel, Andrew Ma, Anil Thomas, Anthony Polloreno, Ashish Tanwer, Burhan Drak Sibai, Divya S Mansingka, Divya Shivaprasad, Ishaan Shah, Karl Stratos, Khoi Nguyen, Michael Callahan, Michael Pust, Mrinal Iyer, Philip Monk, Platon Mazarakis, Ritvik Kapila, Saurabh Srivastava, Tim Romanski
cs.AI
Resumo
A capacidade de um modelo de linguagem refletir sobre seu próprio raciocínio oferece uma vantagem crucial para resolver problemas complexos. Embora a maioria das pesquisas recentes tenha se concentrado em como essa habilidade se desenvolve durante o aprendizado por reforço, demonstramos que ela começa a surgir muito antes - durante o pré-treinamento do modelo. Para estudar isso, introduzimos erros deliberados em cadeias de pensamento e testamos se o modelo ainda consegue chegar à resposta correta reconhecendo e corrigindo esses erros. Ao acompanhar o desempenho em diferentes estágios de pré-treinamento, observamos que essa capacidade de autocorreção aparece cedo e melhora de forma constante ao longo do tempo. Por exemplo, um modelo OLMo2-7B pré-treinado com 4 trilhões de tokens exibe autocorreção em nossas seis tarefas de autorreflexão.
English
A language model's ability to reflect on its own reasoning provides a key
advantage for solving complex problems. While most recent research has focused
on how this ability develops during reinforcement learning, we show that it
actually begins to emerge much earlier - during the model's pre-training. To
study this, we introduce deliberate errors into chains-of-thought and test
whether the model can still arrive at the correct answer by recognizing and
correcting these mistakes. By tracking performance across different stages of
pre-training, we observe that this self-correcting ability appears early and
improves steadily over time. For instance, an OLMo2-7B model pre-trained on 4
trillion tokens displays self-correction on our six self-reflection tasks.Summary
AI-Generated Summary