Redeneren om te leren van latente gedachten

Samenvatting

De schaalvergroting van rekencapaciteit voor het vooraf trainen van taalmodelen (LM's) heeft de groei van door mensen geschreven teksten overtroffen, wat heeft geleid tot zorgen dat data de bottleneck zal worden voor de schaalvergroting van LM's. Om het vooraf trainen in dit data-beperkte regime voort te zetten, stellen we voor dat het expliciet modelleren en afleiden van de onderliggende latente gedachten die ten grondslag liggen aan het tekstgeneratieproces, de efficiëntie van de trainingsdata aanzienlijk kan verbeteren. Intuïtief gezien beschouwt onze aanpak webtekst als het gecomprimeerde eindresultaat van een uitgebreid menselijk denkproces, en bevatten de latente gedachten belangrijke contextuele kennis en redeneerstappen die cruciaal zijn voor data-efficiënt leren. We demonstreren empirisch de effectiviteit van onze aanpak door middel van data-beperkt voortgezet vooraf trainen voor wiskunde. We laten eerst zien dat synthetische data-benaderingen voor het afleiden van latente gedachten de data-efficiëntie aanzienlijk verbeteren, en beter presteren dan trainen op dezelfde hoeveelheid ruwe data (5,7\% \rightarrow 25,4\% op MATH). Bovendien demonstreren we het afleiden van latente gedachten zonder een sterke leraar, waarbij een LM zijn eigen prestaties bootstrap door een EM-algoritme te gebruiken om iteratief de capaciteit van het getrainde LM en de kwaliteit van de met gedachten verrijkte trainingsdata te verbeteren. We laten zien dat een 1B LM zijn prestaties over ten minste drie iteraties kan bootstrap en aanzienlijk beter presteert dan baseline-modellen die op ruwe data zijn getraind, met toenemende winsten door extra rekencapaciteit bij het uitvoeren van de E-stap. De winsten door schaalvergroting van inferentie en EM-iteraties suggereren nieuwe mogelijkheden voor het schalen van data-beperkt vooraf trainen.

English

Compute scaling for language model (LM) pretraining has outpaced the growth of human-written texts, leading to concerns that data will become the bottleneck to LM scaling. To continue scaling pretraining in this data-constrained regime, we propose that explicitly modeling and inferring the latent thoughts that underlie the text generation process can significantly improve pretraining data efficiency. Intuitively, our approach views web text as the compressed final outcome of a verbose human thought process and that the latent thoughts contain important contextual knowledge and reasoning steps that are critical to data-efficient learning. We empirically demonstrate the effectiveness of our approach through data-constrained continued pretraining for math. We first show that synthetic data approaches to inferring latent thoughts significantly improve data efficiency, outperforming training on the same amount of raw data (5.7\% rightarrow 25.4\% on MATH). Furthermore, we demonstrate latent thought inference without a strong teacher, where an LM bootstraps its own performance by using an EM algorithm to iteratively improve the capability of the trained LM and the quality of thought-augmented pretraining data. We show that a 1B LM can bootstrap its performance across at least three iterations and significantly outperform baselines trained on raw data, with increasing gains from additional inference compute when performing the E-step. The gains from inference scaling and EM iterations suggest new opportunities for scaling data-constrained pretraining.

Redeneren om te leren van latente gedachten

Reasoning to Learn from Latent Thoughts

Samenvatting

Support