Простые и масштабируемые стратегии для непрерывного предварительного обучения больших языковых моделей.
Simple and Scalable Strategies to Continually Pre-train Large Language Models
March 13, 2024
Авторы: Adam Ibrahim, Benjamin Thérien, Kshitij Gupta, Mats L. Richter, Quentin Anthony, Timothée Lesort, Eugene Belilovsky, Irina Rish
cs.AI
Аннотация
Большие языковые модели (LLM) регулярно предварительно обучаются на миллиардах токенов, лишь чтобы начать процесс заново, как только появляются новые данные. Гораздо более эффективным решением является непрерывное предварительное обучение этих моделей, что позволяет сэкономить значительные вычислительные ресурсы по сравнению с повторным обучением. Однако сдвиг распределения, вызванный новыми данными, обычно приводит к ухудшению производительности на предыдущих данных или плохой адаптации к новым данным. В данной работе мы показываем, что простое и масштабируемое сочетание пересмотра скорости обучения (LR), уменьшения LR и воспроизведения предыдущих данных достаточно для достижения производительности полного повторного обучения с нуля на всех доступных данных, измеряемой по окончательной потере и оценочным показателям языковой модели (LM). В частности, мы демонстрируем это для слабого, но реалистичного сдвига распределения между двумя часто используемыми наборами данных для предварительного обучения LLM (с английского на английский) и более сильного сдвига распределения (с английского на немецкий) на модели с параметрами 405 миллионов с большими объемами данных (сотни миллиардов токенов). Выбрав слабый, но реалистичный сдвиг для экспериментов большего масштаба, мы также обнаружили, что наши стратегии непрерывного обучения соответствуют базовой линии повторного обучения для LLM с 10 миллиардами параметров. Наши результаты демонстрируют, что LLM могут быть успешно обновлены с помощью простых и масштабируемых стратегий непрерывного обучения, соответствуя базовой линии повторного обучения с использованием лишь части вычислительных ресурсов. Наконец, вдохновленные предыдущими работами, мы предлагаем альтернативы косинусному графику скорости обучения, которые помогают избежать забывания, вызванного пересмотром LR, и не привязаны к фиксированному бюджету токенов.
English
Large language models (LLMs) are routinely pre-trained on billions of tokens,
only to start the process over again once new data becomes available. A much
more efficient solution is to continually pre-train these models, saving
significant compute compared to re-training. However, the distribution shift
induced by new data typically results in degraded performance on previous data
or poor adaptation to the new data. In this work, we show that a simple and
scalable combination of learning rate (LR) re-warming, LR re-decaying, and
replay of previous data is sufficient to match the performance of fully
re-training from scratch on all available data, as measured by final loss and
language model (LM) evaluation benchmarks. Specifically, we show this for a
weak but realistic distribution shift between two commonly used LLM
pre-training datasets (EnglishrightarrowEnglish) and a stronger distribution
shift (EnglishrightarrowGerman) at the 405M parameter model scale with
large dataset sizes (hundreds of billions of tokens). Selecting the weak but
realistic shift for larger-scale experiments, we also find that our continual
learning strategies match the re-training baseline for a 10B parameter LLM. Our
results demonstrate that LLMs can be successfully updated via simple and
scalable continual learning strategies, matching the re-training baseline using
only a fraction of the compute. Finally, inspired by previous work, we propose
alternatives to the cosine learning rate schedule that help circumvent
forgetting induced by LR re-warming and that are not bound to a fixed token
budget.Summary
AI-Generated Summary