Простые и масштабируемые стратегии для непрерывного предварительного обучения больших языковых моделей.Simple and Scalable Strategies to Continually Pre-train Large Language
Models
Большие языковые модели (LLM) регулярно предварительно обучаются на миллиардах токенов, лишь чтобы начать процесс заново, как только появляются новые данные. Гораздо более эффективным решением является непрерывное предварительное обучение этих моделей, что позволяет сэкономить значительные вычислительные ресурсы по сравнению с повторным обучением. Однако сдвиг распределения, вызванный новыми данными, обычно приводит к ухудшению производительности на предыдущих данных или плохой адаптации к новым данным. В данной работе мы показываем, что простое и масштабируемое сочетание пересмотра скорости обучения (LR), уменьшения LR и воспроизведения предыдущих данных достаточно для достижения производительности полного повторного обучения с нуля на всех доступных данных, измеряемой по окончательной потере и оценочным показателям языковой модели (LM). В частности, мы демонстрируем это для слабого, но реалистичного сдвига распределения между двумя часто используемыми наборами данных для предварительного обучения LLM (с английского на английский) и более сильного сдвига распределения (с английского на немецкий) на модели с параметрами 405 миллионов с большими объемами данных (сотни миллиардов токенов). Выбрав слабый, но реалистичный сдвиг для экспериментов большего масштаба, мы также обнаружили, что наши стратегии непрерывного обучения соответствуют базовой линии повторного обучения для LLM с 10 миллиардами параметров. Наши результаты демонстрируют, что LLM могут быть успешно обновлены с помощью простых и масштабируемых стратегий непрерывного обучения, соответствуя базовой линии повторного обучения с использованием лишь части вычислительных ресурсов. Наконец, вдохновленные предыдущими работами, мы предлагаем альтернативы косинусному графику скорости обучения, которые помогают избежать забывания, вызванного пересмотром LR, и не привязаны к фиксированному бюджету токенов.