Strategie semplici e scalabili per il pre-addestramento continuo di modelli linguistici di grandi dimensioni

Abstract

I grandi modelli linguistici (LLM) vengono abitualmente pre-addestrati su miliardi di token, solo per ricominciare il processo da capo una volta che nuovi dati diventano disponibili. Una soluzione molto più efficiente è pre-addestrare continuamente questi modelli, risparmiando un significativo quantitativo di calcolo rispetto al ri-addestramento. Tuttavia, lo spostamento della distribuzione causato dai nuovi dati tipicamente porta a una performance degradata sui dati precedenti o a un adattamento insufficiente ai nuovi dati. In questo lavoro, dimostriamo che una combinazione semplice e scalabile di riscaldamento del tasso di apprendimento (LR), decadimento del LR e replay dei dati precedenti è sufficiente per eguagliare la performance di un ri-addestramento completo da zero su tutti i dati disponibili, misurata dalla perdita finale e dai benchmark di valutazione del modello linguistico (LM). Nello specifico, lo dimostriamo per uno spostamento di distribuzione debole ma realistico tra due comuni dataset di pre-addestramento per LLM (Inglese→Inglese) e uno spostamento di distribuzione più forte (Inglese→Tedesco) su un modello da 405M di parametri con grandi dimensioni dei dataset (centinaia di miliardi di token). Selezionando lo spostamento debole ma realistico per esperimenti su scala più ampia, troviamo inoltre che le nostre strategie di apprendimento continuo eguagliano la baseline di ri-addestramento per un LLM da 10B di parametri. I nostri risultati dimostrano che gli LLM possono essere aggiornati con successo tramite strategie di apprendimento continuo semplici e scalabili, eguagliando la baseline di ri-addestramento utilizzando solo una frazione del calcolo. Infine, ispirati da lavori precedenti, proponiamo alternative alla pianificazione del tasso di apprendimento coseno che aiutano a evitare la dimenticanza indotta dal riscaldamento del LR e che non sono vincolate a un budget fisso di token.

English

Large language models (LLMs) are routinely pre-trained on billions of tokens, only to start the process over again once new data becomes available. A much more efficient solution is to continually pre-train these models, saving significant compute compared to re-training. However, the distribution shift induced by new data typically results in degraded performance on previous data or poor adaptation to the new data. In this work, we show that a simple and scalable combination of learning rate (LR) re-warming, LR re-decaying, and replay of previous data is sufficient to match the performance of fully re-training from scratch on all available data, as measured by final loss and language model (LM) evaluation benchmarks. Specifically, we show this for a weak but realistic distribution shift between two commonly used LLM pre-training datasets (EnglishrightarrowEnglish) and a stronger distribution shift (EnglishrightarrowGerman) at the 405M parameter model scale with large dataset sizes (hundreds of billions of tokens). Selecting the weak but realistic shift for larger-scale experiments, we also find that our continual learning strategies match the re-training baseline for a 10B parameter LLM. Our results demonstrate that LLMs can be successfully updated via simple and scalable continual learning strategies, matching the re-training baseline using only a fraction of the compute. Finally, inspired by previous work, we propose alternatives to the cosine learning rate schedule that help circumvent forgetting induced by LR re-warming and that are not bound to a fixed token budget.

Strategie semplici e scalabili per il pre-addestramento continuo di modelli linguistici di grandi dimensioni

Simple and Scalable Strategies to Continually Pre-train Large Language Models

Abstract

Support