ChatPaper.aiChatPaper

Replanteando la Reflexión en el Preentrenamiento

Rethinking Reflection in Pre-Training

April 5, 2025
Autores: Essential AI, Darsh J Shah, Peter Rushton, Somanshu Singla, Mohit Parmar, Kurt Smith, Yash Vanjani, Ashish Vaswani, Adarsh Chaluvaraju, Andrew Hojel, Andrew Ma, Anil Thomas, Anthony Polloreno, Ashish Tanwer, Burhan Drak Sibai, Divya S Mansingka, Divya Shivaprasad, Ishaan Shah, Karl Stratos, Khoi Nguyen, Michael Callahan, Michael Pust, Mrinal Iyer, Philip Monk, Platon Mazarakis, Ritvik Kapila, Saurabh Srivastava, Tim Romanski
cs.AI

Resumen

La capacidad de un modelo de lenguaje para reflexionar sobre su propio razonamiento ofrece una ventaja clave para resolver problemas complejos. Si bien la mayoría de las investigaciones recientes se ha centrado en cómo esta habilidad se desarrolla durante el aprendizaje por refuerzo, demostramos que en realidad comienza a surgir mucho antes: durante la fase de preentrenamiento del modelo. Para estudiar esto, introducimos errores deliberados en cadenas de pensamiento y evaluamos si el modelo aún puede llegar a la respuesta correcta reconociendo y corrigiendo estos errores. Al rastrear el rendimiento en diferentes etapas del preentrenamiento, observamos que esta capacidad de autocorrección aparece temprano y mejora de manera constante con el tiempo. Por ejemplo, un modelo OLMo2-7B preentrenado con 4 billones de tokens muestra autocorrección en nuestras seis tareas de autorreflexión.
English
A language model's ability to reflect on its own reasoning provides a key advantage for solving complex problems. While most recent research has focused on how this ability develops during reinforcement learning, we show that it actually begins to emerge much earlier - during the model's pre-training. To study this, we introduce deliberate errors into chains-of-thought and test whether the model can still arrive at the correct answer by recognizing and correcting these mistakes. By tracking performance across different stages of pre-training, we observe that this self-correcting ability appears early and improves steadily over time. For instance, an OLMo2-7B model pre-trained on 4 trillion tokens displays self-correction on our six self-reflection tasks.

Summary

AI-Generated Summary

PDF776April 8, 2025