Где найти "Грокинг" в предобучении больших языковых моделей? Мониторинг перехода от запоминания к обобщению без тестовых данных

Аннотация

Гроккинг, то есть продолжающееся улучшение производительности на тестах спустя длительное время после сходимости функции потерь на обучении, недавно был замечен в процессе обучения нейронных сетей, что делает механизмы обобщения и другие возникающие способности, такие как рассуждение, загадочными. В то время как предыдущие исследования обычно обучали небольшие модели на нескольких игрушечных или узкоспециализированных задачах в течение тысяч эпох, мы проводим первое исследование гроккинга на контрольных точках в ходе однопроходного предобучения крупной языковой модели (LLM) на 7 миллиардов параметров, а именно OLMoE. Мы вычисляем функцию потерь на обучении и оцениваем обобщение на разнообразных эталонных задачах, включая математические рассуждения, генерацию кода и задачи извлечения знаний из области здравого смысла и предметной области. Наше исследование впервые подтверждает, что гроккинг всё ещё происходит в процессе предобучения крупномасштабных базовых моделей, хотя различные данные могут входить в стадии гроккинга асинхронно. Мы также раскрываем тайну "возникновения обобщения" в гроккинге, исследуя внутреннюю динамику LLM. В частности, мы обнаруживаем, что пути обучающих выборок (то есть выбор экспертов между слоями) эволюционируют от случайных, специфичных для конкретного экземпляра, к более структурированным и общим между выборками в процессе гроккинга. Кроме того, сложность пути выборки уменьшается, несмотря на сходимость функции потерь. Это указывает на переход от запоминания к обобщению, предоставляя механистическое объяснение задержанного обобщения. В исследовании мы разрабатываем две новые метрики для количественной оценки расстояния между путями и сложности отдельного пути. Мы демонстрируем их способность предсказывать улучшение обобщения на разнообразных последующих задачах. Они эффективны, просты в вычислении и зависят исключительно от обучающих данных. Таким образом, они имеют практическую ценность для предобучения, позволяя нам отслеживать производительность обобщения без дообучения и тестирования. Теоретически мы показываем, что более структурированные пути снижают сложность модели и улучшают границу обобщения.

English

Grokking, i.e., test performance keeps improving long after training loss converged, has been recently witnessed in neural network training, making the mechanism of generalization and other emerging capabilities such as reasoning mysterious. While prior studies usually train small models on a few toy or highly-specific tasks for thousands of epochs, we conduct the first study of grokking on checkpoints during one-pass pretraining of a 7B large language model (LLM), i.e., OLMoE. We compute the training loss and evaluate generalization on diverse benchmark tasks, including math reasoning, code generation, and commonsense/domain-specific knowledge retrieval tasks. Our study, for the first time, verifies that grokking still happens in the pretraining of large-scale foundation models, though different data may enter grokking stages asynchronously. We further demystify grokking's "emergence of generalization" by investigating LLM internal dynamics. Specifically, we find that training samples' pathways (i.e., expert choices across layers) evolve from random, instance-specific to more structured and shareable between samples during grokking. Also, the complexity of a sample's pathway reduces despite the converged loss. These indicate a memorization-to-generalization conversion, providing a mechanistic explanation of delayed generalization. In the study, we develop two novel metrics to quantify pathway distance and the complexity of a single pathway. We show their ability to predict the generalization improvement on diverse downstream tasks. They are efficient, simple to compute and solely dependent on training data. Hence, they have practical value for pretraining, enabling us to monitor the generalization performance without finetuning and test. Theoretically, we show that more structured pathways reduce model complexity and improve the generalization bound.

Где найти "Грокинг" в предобучении больших языковых моделей? Мониторинг перехода от запоминания к обобщению без тестовых данных

Where to find Grokking in LLM Pretraining? Monitor Memorization-to-Generalization without Test

Аннотация

Support