Redeneren om te leren van latente gedachten
Reasoning to Learn from Latent Thoughts
March 24, 2025
Auteurs: Yangjun Ruan, Neil Band, Chris J. Maddison, Tatsunori Hashimoto
cs.AI
Samenvatting
De schaalvergroting van rekencapaciteit voor het vooraf trainen van taalmodelen (LM's) heeft de groei van door mensen geschreven teksten overtroffen, wat heeft geleid tot zorgen dat data de bottleneck zal worden voor de schaalvergroting van LM's. Om het vooraf trainen in dit data-beperkte regime voort te zetten, stellen we voor dat het expliciet modelleren en afleiden van de onderliggende latente gedachten die ten grondslag liggen aan het tekstgeneratieproces, de efficiëntie van de trainingsdata aanzienlijk kan verbeteren. Intuïtief gezien beschouwt onze aanpak webtekst als het gecomprimeerde eindresultaat van een uitgebreid menselijk denkproces, en bevatten de latente gedachten belangrijke contextuele kennis en redeneerstappen die cruciaal zijn voor data-efficiënt leren. We demonstreren empirisch de effectiviteit van onze aanpak door middel van data-beperkt voortgezet vooraf trainen voor wiskunde. We laten eerst zien dat synthetische data-benaderingen voor het afleiden van latente gedachten de data-efficiëntie aanzienlijk verbeteren, en beter presteren dan trainen op dezelfde hoeveelheid ruwe data (5,7\% \rightarrow 25,4\% op MATH). Bovendien demonstreren we het afleiden van latente gedachten zonder een sterke leraar, waarbij een LM zijn eigen prestaties bootstrap door een EM-algoritme te gebruiken om iteratief de capaciteit van het getrainde LM en de kwaliteit van de met gedachten verrijkte trainingsdata te verbeteren. We laten zien dat een 1B LM zijn prestaties over ten minste drie iteraties kan bootstrap en aanzienlijk beter presteert dan baseline-modellen die op ruwe data zijn getraind, met toenemende winsten door extra rekencapaciteit bij het uitvoeren van de E-stap. De winsten door schaalvergroting van inferentie en EM-iteraties suggereren nieuwe mogelijkheden voor het schalen van data-beperkt vooraf trainen.
English
Compute scaling for language model (LM) pretraining has outpaced the growth
of human-written texts, leading to concerns that data will become the
bottleneck to LM scaling. To continue scaling pretraining in this
data-constrained regime, we propose that explicitly modeling and inferring the
latent thoughts that underlie the text generation process can significantly
improve pretraining data efficiency. Intuitively, our approach views web text
as the compressed final outcome of a verbose human thought process and that the
latent thoughts contain important contextual knowledge and reasoning steps that
are critical to data-efficient learning. We empirically demonstrate the
effectiveness of our approach through data-constrained continued pretraining
for math. We first show that synthetic data approaches to inferring latent
thoughts significantly improve data efficiency, outperforming training on the
same amount of raw data (5.7\% rightarrow 25.4\% on MATH). Furthermore, we
demonstrate latent thought inference without a strong teacher, where an LM
bootstraps its own performance by using an EM algorithm to iteratively improve
the capability of the trained LM and the quality of thought-augmented
pretraining data. We show that a 1B LM can bootstrap its performance across at
least three iterations and significantly outperform baselines trained on raw
data, with increasing gains from additional inference compute when performing
the E-step. The gains from inference scaling and EM iterations suggest new
opportunities for scaling data-constrained pretraining.Summary
AI-Generated Summary