ChatPaper.aiChatPaper

Eenvoudige en schaalbare strategieën voor het voortdurend vooraf trainen van grote taalmodelle

Simple and Scalable Strategies to Continually Pre-train Large Language Models

March 13, 2024
Auteurs: Adam Ibrahim, Benjamin Thérien, Kshitij Gupta, Mats L. Richter, Quentin Anthony, Timothée Lesort, Eugene Belilovsky, Irina Rish
cs.AI

Samenvatting

Grote taalmodellen (LLMs) worden routinematig voorgetraind op miljarden tokens, om vervolgens het proces opnieuw te starten zodra nieuwe data beschikbaar komt. Een veel efficiëntere oplossing is om deze modellen continu voor te trainen, wat aanzienlijk minder rekenkracht vereist in vergelijking met hertraining. Echter, de distributieverschuiving veroorzaakt door nieuwe data resulteert doorgaans in verminderde prestaties op eerdere data of slechte aanpassing aan de nieuwe data. In dit werk tonen we aan dat een eenvoudige en schaalbare combinatie van het opnieuw opwarmen van de leerrate (LR), het opnieuw afbouwen van de leerrate en het herhalen van eerdere data voldoende is om de prestaties van volledige hertraining vanaf nul te evenaren, gemeten aan de hand van het uiteindelijke verlies en evaluatiebenchmarks voor taalmodellen (LM). Specifiek laten we dit zien voor een zwakke maar realistische distributieverschuiving tussen twee veelgebruikte LLM-voorraaddatasets (Engels→Engels) en een sterkere distributieverschuiving (Engels→Duits) op het niveau van een model met 405M parameters en grote datasetgroottes (honderden miljarden tokens). Door de zwakke maar realistische verschuiving te selecteren voor grootschaliger experimenten, vinden we ook dat onze continue leerstrategieën de hertrainingsbaseline evenaren voor een LLM met 10B parameters. Onze resultaten tonen aan dat LLMs succesvol kunnen worden bijgewerkt via eenvoudige en schaalbare continue leerstrategieën, waarbij de hertrainingsbaseline wordt geëvenaard met slechts een fractie van de rekenkracht. Ten slotte, geïnspireerd door eerder werk, stellen we alternatieven voor voor het cosinus-leerratieschema die helpen om vergeten veroorzaakt door LR-opwarming te omzeilen en die niet gebonden zijn aan een vast tokenbudget.
English
Large language models (LLMs) are routinely pre-trained on billions of tokens, only to start the process over again once new data becomes available. A much more efficient solution is to continually pre-train these models, saving significant compute compared to re-training. However, the distribution shift induced by new data typically results in degraded performance on previous data or poor adaptation to the new data. In this work, we show that a simple and scalable combination of learning rate (LR) re-warming, LR re-decaying, and replay of previous data is sufficient to match the performance of fully re-training from scratch on all available data, as measured by final loss and language model (LM) evaluation benchmarks. Specifically, we show this for a weak but realistic distribution shift between two commonly used LLM pre-training datasets (EnglishrightarrowEnglish) and a stronger distribution shift (EnglishrightarrowGerman) at the 405M parameter model scale with large dataset sizes (hundreds of billions of tokens). Selecting the weak but realistic shift for larger-scale experiments, we also find that our continual learning strategies match the re-training baseline for a 10B parameter LLM. Our results demonstrate that LLMs can be successfully updated via simple and scalable continual learning strategies, matching the re-training baseline using only a fraction of the compute. Finally, inspired by previous work, we propose alternatives to the cosine learning rate schedule that help circumvent forgetting induced by LR re-warming and that are not bound to a fixed token budget.
PDF511December 15, 2024