Un Emulatore per il Fine-Tuning di Modelli Linguistici di Grandi Dimensioni utilizzando Modelli Linguistici di Piccole Dimensioni

Abstract

I modelli linguistici (LM) ampiamente utilizzati sono tipicamente costruiti attraverso un processo di addestramento in due fasi: una fase di pre-addestramento che utilizza un dataset di testo molto ampio e diversificato, e una fase di fine-tuning (a volte chiamata "allineamento") che impiega esempi mirati o altre specifiche dei comportamenti desiderati. Sebbene si ipotizzi che la conoscenza e le competenze derivino principalmente dal pre-addestramento, e che il fine-tuning agisca principalmente come filtro su queste conoscenze e competenze, questa intuizione non è stata ampiamente testata. Per contribuire a chiarire questo aspetto, introduciamo una tecnica innovativa per separare la conoscenza e le competenze acquisite in queste due fasi, consentendo di rispondere direttamente alla domanda: "Cosa accadrebbe se combinassimo la conoscenza appresa da un modello di grandi dimensioni durante il pre-addestramento con quella appresa da un modello più piccolo durante il fine-tuning (o viceversa)?" Utilizzando un framework basato sull'apprendimento per rinforzo (RL) derivato da recenti sviluppi nell'apprendimento dalle preferenze umane, introduciamo il fine-tuning emulato (EFT), un metodo pratico e basato su principi per campionare da una distribuzione che approssima (o "emula") il risultato del pre-addestramento e del fine-tuning a scale diverse. I nostri esperimenti con EFT dimostrano che aumentare la scala del fine-tuning tende a migliorare l'utilità, mentre aumentare la scala del pre-addestramento tende a migliorare la veridicità. Oltre a separare la scala, mostriamo che EFT consente di regolare al momento del test tratti comportamentali in competizione, come utilità e innocuità, senza ulteriore addestramento. Infine, un caso speciale di fine-tuning emulato, che chiamiamo up-scaling di LM, evita il fine-tuning ad alta intensità di risorse di modelli pre-addestrati di grandi dimensioni aggregandoli con modelli di piccole dimensioni sottoposti a fine-tuning, emulando essenzialmente il risultato del fine-tuning del modello pre-addestrato di grandi dimensioni. L'up-scaling migliora costantemente l'utilità e la veridicità dei modelli che seguono istruzioni nelle famiglie Llama, Llama-2 e Falcon, senza ulteriori iperparametri o addestramento.

English

Widely used language models (LMs) are typically built by scaling up a two-stage training pipeline: a pre-training stage that uses a very large, diverse dataset of text and a fine-tuning (sometimes, 'alignment') stage that uses targeted examples or other specifications of desired behaviors. While it has been hypothesized that knowledge and skills come from pre-training, and fine-tuning mostly filters this knowledge and skillset, this intuition has not been extensively tested. To aid in doing so, we introduce a novel technique for decoupling the knowledge and skills gained in these two stages, enabling a direct answer to the question, "What would happen if we combined the knowledge learned by a large model during pre-training with the knowledge learned by a small model during fine-tuning (or vice versa)?" Using an RL-based framework derived from recent developments in learning from human preferences, we introduce emulated fine-tuning (EFT), a principled and practical method for sampling from a distribution that approximates (or 'emulates') the result of pre-training and fine-tuning at different scales. Our experiments with EFT show that scaling up fine-tuning tends to improve helpfulness, while scaling up pre-training tends to improve factuality. Beyond decoupling scale, we show that EFT enables test-time adjustment of competing behavioral traits like helpfulness and harmlessness without additional training. Finally, a special case of emulated fine-tuning, which we call LM up-scaling, avoids resource-intensive fine-tuning of large pre-trained models by ensembling them with small fine-tuned models, essentially emulating the result of fine-tuning the large pre-trained model. Up-scaling consistently improves helpfulness and factuality of instruction-following models in the Llama, Llama-2, and Falcon families, without additional hyperparameters or training.

Un Emulatore per il Fine-Tuning di Modelli Linguistici di Grandi Dimensioni utilizzando Modelli Linguistici di Piccole Dimensioni

An Emulator for Fine-Tuning Large Language Models using Small Language Models

Abstract

Support