Un émulateur pour le réglage fin de grands modèles de langage utilisant des petits modèles de langage
An Emulator for Fine-Tuning Large Language Models using Small Language Models
October 19, 2023
Auteurs: Eric Mitchell, Rafael Rafailov, Archit Sharma, Chelsea Finn, Christopher D. Manning
cs.AI
Résumé
Les modèles de langage (LMs) largement utilisés sont généralement construits en augmentant l'échelle d'un pipeline d'entraînement en deux étapes : une étape de pré-entraînement qui utilise un très grand ensemble de données textuelles diversifiées, et une étape de fine-tuning (parfois appelée 'alignement') qui utilise des exemples ciblés ou d'autres spécifications des comportements souhaités. Bien qu'il ait été supposé que les connaissances et les compétences proviennent du pré-entraînement, et que le fine-tuning filtre principalement ces connaissances et compétences, cette intuition n'a pas été largement testée. Pour contribuer à cette exploration, nous introduisons une technique novatrice permettant de découpler les connaissances et les compétences acquises lors de ces deux étapes, offrant ainsi une réponse directe à la question : "Que se passerait-il si nous combinions les connaissances apprises par un grand modèle lors du pré-entraînement avec celles apprises par un petit modèle lors du fine-tuning (ou vice versa) ?" En utilisant un cadre basé sur l'apprentissage par renforcement (RL) dérivé des récents développements dans l'apprentissage à partir des préférences humaines, nous introduisons le fine-tuning émulé (EFT), une méthode rigoureuse et pratique pour échantillonner à partir d'une distribution qui approxime (ou 'émule') le résultat du pré-entraînement et du fine-tuning à différentes échelles. Nos expériences avec EFT montrent que l'augmentation de l'échelle du fine-tuning tend à améliorer l'utilité, tandis que l'augmentation de l'échelle du pré-entraînement tend à améliorer la factualité. Au-delà du découplage des échelles, nous montrons que EFT permet l'ajustement en temps réel de traits comportementaux concurrents comme l'utilité et l'innocuité sans entraînement supplémentaire. Enfin, un cas particulier de fine-tuning émulé, que nous appelons up-scaling de LM, évite le fine-tuning coûteux en ressources des grands modèles pré-entraînés en les combinant avec de petits modèles fine-tunés, émulant ainsi essentiellement le résultat du fine-tuning du grand modèle pré-entraîné. L'up-scaling améliore systématiquement l'utilité et la factualité des modèles suivant des instructions dans les familles Llama, Llama-2 et Falcon, sans hyperparamètres ou entraînement supplémentaires.
English
Widely used language models (LMs) are typically built by scaling up a
two-stage training pipeline: a pre-training stage that uses a very large,
diverse dataset of text and a fine-tuning (sometimes, 'alignment') stage that
uses targeted examples or other specifications of desired behaviors. While it
has been hypothesized that knowledge and skills come from pre-training, and
fine-tuning mostly filters this knowledge and skillset, this intuition has not
been extensively tested. To aid in doing so, we introduce a novel technique for
decoupling the knowledge and skills gained in these two stages, enabling a
direct answer to the question, "What would happen if we combined the knowledge
learned by a large model during pre-training with the knowledge learned by a
small model during fine-tuning (or vice versa)?" Using an RL-based framework
derived from recent developments in learning from human preferences, we
introduce emulated fine-tuning (EFT), a principled and practical method for
sampling from a distribution that approximates (or 'emulates') the result of
pre-training and fine-tuning at different scales. Our experiments with EFT show
that scaling up fine-tuning tends to improve helpfulness, while scaling up
pre-training tends to improve factuality. Beyond decoupling scale, we show that
EFT enables test-time adjustment of competing behavioral traits like
helpfulness and harmlessness without additional training. Finally, a special
case of emulated fine-tuning, which we call LM up-scaling, avoids
resource-intensive fine-tuning of large pre-trained models by ensembling them
with small fine-tuned models, essentially emulating the result of fine-tuning
the large pre-trained model. Up-scaling consistently improves helpfulness and
factuality of instruction-following models in the Llama, Llama-2, and Falcon
families, without additional hyperparameters or training.