Un Emulatore per il Fine-Tuning di Modelli Linguistici di Grandi Dimensioni utilizzando Modelli Linguistici di Piccole Dimensioni
An Emulator for Fine-Tuning Large Language Models using Small Language Models
October 19, 2023
Autori: Eric Mitchell, Rafael Rafailov, Archit Sharma, Chelsea Finn, Christopher D. Manning
cs.AI
Abstract
I modelli linguistici (LM) ampiamente utilizzati sono tipicamente costruiti attraverso un processo di addestramento in due fasi: una fase di pre-addestramento che utilizza un dataset di testo molto ampio e diversificato, e una fase di fine-tuning (a volte chiamata "allineamento") che impiega esempi mirati o altre specifiche dei comportamenti desiderati. Sebbene si ipotizzi che la conoscenza e le competenze derivino principalmente dal pre-addestramento, e che il fine-tuning agisca principalmente come filtro su queste conoscenze e competenze, questa intuizione non è stata ampiamente testata. Per contribuire a chiarire questo aspetto, introduciamo una tecnica innovativa per separare la conoscenza e le competenze acquisite in queste due fasi, consentendo di rispondere direttamente alla domanda: "Cosa accadrebbe se combinassimo la conoscenza appresa da un modello di grandi dimensioni durante il pre-addestramento con quella appresa da un modello più piccolo durante il fine-tuning (o viceversa)?" Utilizzando un framework basato sull'apprendimento per rinforzo (RL) derivato da recenti sviluppi nell'apprendimento dalle preferenze umane, introduciamo il fine-tuning emulato (EFT), un metodo pratico e basato su principi per campionare da una distribuzione che approssima (o "emula") il risultato del pre-addestramento e del fine-tuning a scale diverse. I nostri esperimenti con EFT dimostrano che aumentare la scala del fine-tuning tende a migliorare l'utilità, mentre aumentare la scala del pre-addestramento tende a migliorare la veridicità. Oltre a separare la scala, mostriamo che EFT consente di regolare al momento del test tratti comportamentali in competizione, come utilità e innocuità, senza ulteriore addestramento. Infine, un caso speciale di fine-tuning emulato, che chiamiamo up-scaling di LM, evita il fine-tuning ad alta intensità di risorse di modelli pre-addestrati di grandi dimensioni aggregandoli con modelli di piccole dimensioni sottoposti a fine-tuning, emulando essenzialmente il risultato del fine-tuning del modello pre-addestrato di grandi dimensioni. L'up-scaling migliora costantemente l'utilità e la veridicità dei modelli che seguono istruzioni nelle famiglie Llama, Llama-2 e Falcon, senza ulteriori iperparametri o addestramento.
English
Widely used language models (LMs) are typically built by scaling up a
two-stage training pipeline: a pre-training stage that uses a very large,
diverse dataset of text and a fine-tuning (sometimes, 'alignment') stage that
uses targeted examples or other specifications of desired behaviors. While it
has been hypothesized that knowledge and skills come from pre-training, and
fine-tuning mostly filters this knowledge and skillset, this intuition has not
been extensively tested. To aid in doing so, we introduce a novel technique for
decoupling the knowledge and skills gained in these two stages, enabling a
direct answer to the question, "What would happen if we combined the knowledge
learned by a large model during pre-training with the knowledge learned by a
small model during fine-tuning (or vice versa)?" Using an RL-based framework
derived from recent developments in learning from human preferences, we
introduce emulated fine-tuning (EFT), a principled and practical method for
sampling from a distribution that approximates (or 'emulates') the result of
pre-training and fine-tuning at different scales. Our experiments with EFT show
that scaling up fine-tuning tends to improve helpfulness, while scaling up
pre-training tends to improve factuality. Beyond decoupling scale, we show that
EFT enables test-time adjustment of competing behavioral traits like
helpfulness and harmlessness without additional training. Finally, a special
case of emulated fine-tuning, which we call LM up-scaling, avoids
resource-intensive fine-tuning of large pre-trained models by ensembling them
with small fine-tuned models, essentially emulating the result of fine-tuning
the large pre-trained model. Up-scaling consistently improves helpfulness and
factuality of instruction-following models in the Llama, Llama-2, and Falcon
families, without additional hyperparameters or training.