Обучение через рассуждение на основе скрытых мыслей
Reasoning to Learn from Latent Thoughts
March 24, 2025
Авторы: Yangjun Ruan, Neil Band, Chris J. Maddison, Tatsunori Hashimoto
cs.AI
Аннотация
Масштабирование вычислительных ресурсов для предварительного обучения языковых моделей (LM) опережает рост объема текстов, написанных людьми, что вызывает опасения, что данные станут узким местом для масштабирования LM. Чтобы продолжить масштабирование предварительного обучения в условиях ограниченности данных, мы предлагаем, что явное моделирование и вывод скрытых мыслей, лежащих в основе процесса генерации текста, может значительно повысить эффективность использования данных при предварительном обучении. Интуитивно наш подход рассматривает веб-тексты как сжатый конечный результат многословного мыслительного процесса человека, при этом скрытые мысли содержат важные контекстуальные знания и шаги рассуждений, которые критически важны для эффективного обучения с ограниченными данными. Мы эмпирически демонстрируем эффективность нашего подхода на примере продолженного предварительного обучения с ограниченными данными для математики. Сначала мы показываем, что синтетические подходы к выводу скрытых мыслей значительно повышают эффективность использования данных, превосходя обучение на том же объеме исходных данных (5.7\% → 25.4\% на MATH). Кроме того, мы демонстрируем вывод скрытых мыслей без сильного учителя, где LM самостоятельно улучшает свою производительность, используя EM-алгоритм для итеративного повышения способностей обученной модели и качества данных для предварительного обучения, дополненных мыслями. Мы показываем, что LM с 1 миллиардом параметров может улучшать свою производительность как минимум на трех итерациях и значительно превосходить базовые модели, обученные на исходных данных, с увеличивающимся выигрышем от дополнительных вычислительных ресурсов при выполнении E-шага. Улучшения от масштабирования вывода и итераций EM открывают новые возможности для масштабирования предварительного обучения с ограниченными данными.
English
Compute scaling for language model (LM) pretraining has outpaced the growth
of human-written texts, leading to concerns that data will become the
bottleneck to LM scaling. To continue scaling pretraining in this
data-constrained regime, we propose that explicitly modeling and inferring the
latent thoughts that underlie the text generation process can significantly
improve pretraining data efficiency. Intuitively, our approach views web text
as the compressed final outcome of a verbose human thought process and that the
latent thoughts contain important contextual knowledge and reasoning steps that
are critical to data-efficient learning. We empirically demonstrate the
effectiveness of our approach through data-constrained continued pretraining
for math. We first show that synthetic data approaches to inferring latent
thoughts significantly improve data efficiency, outperforming training on the
same amount of raw data (5.7\% rightarrow 25.4\% on MATH). Furthermore, we
demonstrate latent thought inference without a strong teacher, where an LM
bootstraps its own performance by using an EM algorithm to iteratively improve
the capability of the trained LM and the quality of thought-augmented
pretraining data. We show that a 1B LM can bootstrap its performance across at
least three iterations and significantly outperform baselines trained on raw
data, with increasing gains from additional inference compute when performing
the E-step. The gains from inference scaling and EM iterations suggest new
opportunities for scaling data-constrained pretraining.Summary
AI-Generated Summary