Raciocínio para Aprender a partir de Pensamentos Latentes
Reasoning to Learn from Latent Thoughts
March 24, 2025
Autores: Yangjun Ruan, Neil Band, Chris J. Maddison, Tatsunori Hashimoto
cs.AI
Resumo
O dimensionamento computacional para o pré-treinamento de modelos de linguagem (LM) tem superado o crescimento de textos escritos por humanos, levando a preocupações de que os dados se tornem o gargalo para o dimensionamento dos LMs. Para continuar escalando o pré-treinamento neste regime limitado por dados, propomos que a modelagem e inferência explícitas dos pensamentos latentes que fundamentam o processo de geração de texto podem melhorar significativamente a eficiência dos dados de pré-treinamento. Intuitivamente, nossa abordagem vê o texto da web como o resultado final compactado de um processo de pensamento humano detalhado e que os pensamentos latentes contêm conhecimento contextual e etapas de raciocínio importantes que são críticos para o aprendizado eficiente em termos de dados. Demonstramos empiricamente a eficácia de nossa abordagem por meio do pré-treinamento contínuo limitado por dados para matemática. Primeiro, mostramos que abordagens de dados sintéticos para inferir pensamentos latentes melhoram significativamente a eficiência dos dados, superando o treinamento com a mesma quantidade de dados brutos (5,7\% \rightarrow 25,4\% no MATH). Além disso, demonstramos a inferência de pensamentos latentes sem um professor forte, onde um LM impulsiona seu próprio desempenho usando um algoritmo EM para melhorar iterativamente a capacidade do LM treinado e a qualidade dos dados de pré-treinamento aumentados com pensamentos. Mostramos que um LM de 1B pode impulsionar seu desempenho em pelo menos três iterações e superar significativamente as baselines treinadas com dados brutos, com ganhos crescentes de computação adicional de inferência ao realizar a etapa E. Os ganhos do dimensionamento de inferência e iterações EM sugerem novas oportunidades para escalar o pré-treinamento limitado por dados.
English
Compute scaling for language model (LM) pretraining has outpaced the growth
of human-written texts, leading to concerns that data will become the
bottleneck to LM scaling. To continue scaling pretraining in this
data-constrained regime, we propose that explicitly modeling and inferring the
latent thoughts that underlie the text generation process can significantly
improve pretraining data efficiency. Intuitively, our approach views web text
as the compressed final outcome of a verbose human thought process and that the
latent thoughts contain important contextual knowledge and reasoning steps that
are critical to data-efficient learning. We empirically demonstrate the
effectiveness of our approach through data-constrained continued pretraining
for math. We first show that synthetic data approaches to inferring latent
thoughts significantly improve data efficiency, outperforming training on the
same amount of raw data (5.7\% rightarrow 25.4\% on MATH). Furthermore, we
demonstrate latent thought inference without a strong teacher, where an LM
bootstraps its own performance by using an EM algorithm to iteratively improve
the capability of the trained LM and the quality of thought-augmented
pretraining data. We show that a 1B LM can bootstrap its performance across at
least three iterations and significantly outperform baselines trained on raw
data, with increasing gains from additional inference compute when performing
the E-step. The gains from inference scaling and EM iterations suggest new
opportunities for scaling data-constrained pretraining.Summary
AI-Generated Summary