Raisonnement pour apprendre à partir de pensées latentes
Reasoning to Learn from Latent Thoughts
March 24, 2025
Auteurs: Yangjun Ruan, Neil Band, Chris J. Maddison, Tatsunori Hashimoto
cs.AI
Résumé
L'évolution du calcul pour le pré-entraînement des modèles de langage (LM) a dépassé la croissance des textes écrits par des humains, suscitant des inquiétudes quant au fait que les données deviendront le goulot d'étranglement pour la mise à l'échelle des LM. Pour poursuivre ce pré-entraînement dans un contexte de données limitées, nous proposons que la modélisation et l'inférence explicites des pensées latentes sous-jacentes au processus de génération de texte peuvent considérablement améliorer l'efficacité des données de pré-entraînement. Intuitivement, notre approche considère le texte web comme le résultat final compressé d'un processus de pensée humaine détaillé, et que ces pensées latentes contiennent des connaissances contextuelles et des étapes de raisonnement essentielles pour un apprentissage efficace des données. Nous démontrons empiriquement l'efficacité de notre approche à travers un pré-entraînement continu en mathématiques avec des données limitées. Nous montrons d'abord que les approches de données synthétiques pour inférer les pensées latentes améliorent significativement l'efficacité des données, surpassant l'entraînement sur la même quantité de données brutes (5,7 \% \rightarrow 25,4 \% sur MATH). De plus, nous démontrons l'inférence de pensées latentes sans un enseignant fort, où un LM améliore ses performances de manière autonome en utilisant un algorithme EM pour améliorer itérativement les capacités du LM entraîné et la qualité des données de pré-entraînement enrichies de pensées. Nous montrons qu'un LM de 1 milliard de paramètres peut améliorer ses performances sur au moins trois itérations et surpasser significativement les modèles de référence entraînés sur des données brutes, avec des gains croissants provenant de calculs d'inférence supplémentaires lors de l'étape E. Les gains obtenus grâce à la mise à l'échelle de l'inférence et aux itérations EM suggèrent de nouvelles opportunités pour la mise à l'échelle du pré-entraînement dans un contexte de données limitées.
English
Compute scaling for language model (LM) pretraining has outpaced the growth
of human-written texts, leading to concerns that data will become the
bottleneck to LM scaling. To continue scaling pretraining in this
data-constrained regime, we propose that explicitly modeling and inferring the
latent thoughts that underlie the text generation process can significantly
improve pretraining data efficiency. Intuitively, our approach views web text
as the compressed final outcome of a verbose human thought process and that the
latent thoughts contain important contextual knowledge and reasoning steps that
are critical to data-efficient learning. We empirically demonstrate the
effectiveness of our approach through data-constrained continued pretraining
for math. We first show that synthetic data approaches to inferring latent
thoughts significantly improve data efficiency, outperforming training on the
same amount of raw data (5.7\% rightarrow 25.4\% on MATH). Furthermore, we
demonstrate latent thought inference without a strong teacher, where an LM
bootstraps its own performance by using an EM algorithm to iteratively improve
the capability of the trained LM and the quality of thought-augmented
pretraining data. We show that a 1B LM can bootstrap its performance across at
least three iterations and significantly outperform baselines trained on raw
data, with increasing gains from additional inference compute when performing
the E-step. The gains from inference scaling and EM iterations suggest new
opportunities for scaling data-constrained pretraining.Summary
AI-Generated Summary