Razonamiento para Aprender a partir de Pensamientos Latentes
Reasoning to Learn from Latent Thoughts
March 24, 2025
Autores: Yangjun Ruan, Neil Band, Chris J. Maddison, Tatsunori Hashimoto
cs.AI
Resumen
El escalado computacional para el preentrenamiento de modelos de lenguaje (LM) ha superado el crecimiento de los textos escritos por humanos, lo que ha generado preocupación de que los datos se conviertan en el cuello de botella para el escalado de los LM. Para continuar escalando el preentrenamiento en este régimen limitado por datos, proponemos que modelar e inferir explícitamente los pensamientos latentes que subyacen al proceso de generación de texto puede mejorar significativamente la eficiencia de los datos en el preentrenamiento. Intuitivamente, nuestro enfoque considera el texto web como el resultado comprimido de un proceso de pensamiento humano más detallado, y que los pensamientos latentes contienen conocimiento contextual y pasos de razonamiento críticos para un aprendizaje eficiente en términos de datos. Demostramos empíricamente la efectividad de nuestro enfoque a través del preentrenamiento continuo en un entorno limitado por datos para matemáticas. Primero, mostramos que los enfoques de datos sintéticos para inferir pensamientos latentes mejoran significativamente la eficiencia de los datos, superando el entrenamiento con la misma cantidad de datos brutos (5.7\% \rightarrow 25.4\% en MATH). Además, demostramos la inferencia de pensamientos latentes sin un profesor fuerte, donde un LM mejora su propio rendimiento utilizando un algoritmo EM para mejorar iterativamente la capacidad del LM entrenado y la calidad de los datos de preentrenamiento aumentados con pensamientos. Mostramos que un LM de 1B puede mejorar su rendimiento a través de al menos tres iteraciones y superar significativamente a los modelos de referencia entrenados con datos brutos, con ganancias crecientes al aumentar el cómputo de inferencia al realizar el paso E. Las ganancias obtenidas del escalado de inferencia y las iteraciones EM sugieren nuevas oportunidades para escalar el preentrenamiento en entornos limitados por datos.
English
Compute scaling for language model (LM) pretraining has outpaced the growth
of human-written texts, leading to concerns that data will become the
bottleneck to LM scaling. To continue scaling pretraining in this
data-constrained regime, we propose that explicitly modeling and inferring the
latent thoughts that underlie the text generation process can significantly
improve pretraining data efficiency. Intuitively, our approach views web text
as the compressed final outcome of a verbose human thought process and that the
latent thoughts contain important contextual knowledge and reasoning steps that
are critical to data-efficient learning. We empirically demonstrate the
effectiveness of our approach through data-constrained continued pretraining
for math. We first show that synthetic data approaches to inferring latent
thoughts significantly improve data efficiency, outperforming training on the
same amount of raw data (5.7\% rightarrow 25.4\% on MATH). Furthermore, we
demonstrate latent thought inference without a strong teacher, where an LM
bootstraps its own performance by using an EM algorithm to iteratively improve
the capability of the trained LM and the quality of thought-augmented
pretraining data. We show that a 1B LM can bootstrap its performance across at
least three iterations and significantly outperform baselines trained on raw
data, with increasing gains from additional inference compute when performing
the E-step. The gains from inference scaling and EM iterations suggest new
opportunities for scaling data-constrained pretraining.Summary
AI-Generated Summary