Replanteando la Reflexión en el Preentrenamiento
Rethinking Reflection in Pre-Training
April 5, 2025
Autores: Essential AI, Darsh J Shah, Peter Rushton, Somanshu Singla, Mohit Parmar, Kurt Smith, Yash Vanjani, Ashish Vaswani, Adarsh Chaluvaraju, Andrew Hojel, Andrew Ma, Anil Thomas, Anthony Polloreno, Ashish Tanwer, Burhan Drak Sibai, Divya S Mansingka, Divya Shivaprasad, Ishaan Shah, Karl Stratos, Khoi Nguyen, Michael Callahan, Michael Pust, Mrinal Iyer, Philip Monk, Platon Mazarakis, Ritvik Kapila, Saurabh Srivastava, Tim Romanski
cs.AI
Resumen
La capacidad de un modelo de lenguaje para reflexionar sobre su propio razonamiento ofrece una ventaja clave para resolver problemas complejos. Si bien la mayoría de las investigaciones recientes se ha centrado en cómo esta habilidad se desarrolla durante el aprendizaje por refuerzo, demostramos que en realidad comienza a surgir mucho antes: durante la fase de preentrenamiento del modelo. Para estudiar esto, introducimos errores deliberados en cadenas de pensamiento y evaluamos si el modelo aún puede llegar a la respuesta correcta reconociendo y corrigiendo estos errores. Al rastrear el rendimiento en diferentes etapas del preentrenamiento, observamos que esta capacidad de autocorrección aparece temprano y mejora de manera constante con el tiempo. Por ejemplo, un modelo OLMo2-7B preentrenado con 4 billones de tokens muestra autocorrección en nuestras seis tareas de autorreflexión.
English
A language model's ability to reflect on its own reasoning provides a key
advantage for solving complex problems. While most recent research has focused
on how this ability develops during reinforcement learning, we show that it
actually begins to emerge much earlier - during the model's pre-training. To
study this, we introduce deliberate errors into chains-of-thought and test
whether the model can still arrive at the correct answer by recognizing and
correcting these mistakes. By tracking performance across different stages of
pre-training, we observe that this self-correcting ability appears early and
improves steadily over time. For instance, an OLMo2-7B model pre-trained on 4
trillion tokens displays self-correction on our six self-reflection tasks.Summary
AI-Generated Summary