Ein Emulator zur Feinabstimmung großer Sprachmodelle unter Verwendung kleiner Sprachmodelle
An Emulator for Fine-Tuning Large Language Models using Small Language Models
October 19, 2023
Autoren: Eric Mitchell, Rafael Rafailov, Archit Sharma, Chelsea Finn, Christopher D. Manning
cs.AI
Zusammenfassung
Weit verbreitete Sprachmodelle (LMs) werden typischerweise durch die Skalierung einer zweistufigen Trainingspipeline entwickelt: eine Vorab-Trainingsphase, die einen sehr großen, vielfältigen Textdatensatz verwendet, und eine Feinabstimmungsphase (manchmal auch „Alignment“ genannt), die gezielte Beispiele oder andere Spezifikationen des gewünschten Verhaltens nutzt. Obwohl die Hypothese besteht, dass Wissen und Fähigkeiten aus dem Vorab-Training stammen und die Feinabstimmung dieses Wissen und diese Fähigkeiten hauptsächlich filtert, wurde diese Intuition bisher nicht umfassend getestet. Um dies zu ermöglichen, führen wir eine neuartige Technik ein, die das in diesen beiden Phasen erworbene Wissen und die Fähigkeiten entkoppelt, wodurch eine direkte Antwort auf die Frage möglich wird: „Was würde passieren, wenn wir das Wissen, das ein großes Modell während des Vorab-Trainings erlernt hat, mit dem Wissen kombinieren, das ein kleines Modell während der Feinabstimmung erlernt hat (oder umgekehrt)?“ Unter Verwendung eines RL-basierten Frameworks, das auf jüngsten Entwicklungen im Lernen aus menschlichen Präferenzen basiert, führen wir die emulierte Feinabstimmung (Emulated Fine-Tuning, EFT) ein, eine prinzipielle und praktische Methode zur Stichprobenentnahme aus einer Verteilung, die das Ergebnis von Vorab-Training und Feinabstimmung in verschiedenen Skalen annähert (oder „emuliert“). Unsere Experimente mit EFT zeigen, dass die Skalierung der Feinabstimmung tendenziell die Hilfsbereitschaft verbessert, während die Skalierung des Vorab-Trainings tendenziell die Faktentreue erhöht. Über die Entkopplung der Skalierung hinaus zeigen wir, dass EFT eine testzeitliche Anpassung konkurrierender Verhaltensmerkmale wie Hilfsbereitschaft und Schadlosigkeit ohne zusätzliches Training ermöglicht. Schließlich vermeidet ein Spezialfall der emulierten Feinabstimmung, den wir als LM-Up-Scaling bezeichnen, die ressourcenintensive Feinabstimmung großer vortrainierter Modelle, indem sie mit kleinen feinabgestimmten Modellen kombiniert werden, wodurch im Wesentlichen das Ergebnis der Feinabstimmung des großen vortrainierten Modells emuliert wird. Up-Scaling verbessert durchgängig die Hilfsbereitschaft und Faktentreue von befehlsfolgenden Modellen der Llama-, Llama-2- und Falcon-Familien, ohne zusätzliche Hyperparameter oder Training zu erfordern.
English
Widely used language models (LMs) are typically built by scaling up a
two-stage training pipeline: a pre-training stage that uses a very large,
diverse dataset of text and a fine-tuning (sometimes, 'alignment') stage that
uses targeted examples or other specifications of desired behaviors. While it
has been hypothesized that knowledge and skills come from pre-training, and
fine-tuning mostly filters this knowledge and skillset, this intuition has not
been extensively tested. To aid in doing so, we introduce a novel technique for
decoupling the knowledge and skills gained in these two stages, enabling a
direct answer to the question, "What would happen if we combined the knowledge
learned by a large model during pre-training with the knowledge learned by a
small model during fine-tuning (or vice versa)?" Using an RL-based framework
derived from recent developments in learning from human preferences, we
introduce emulated fine-tuning (EFT), a principled and practical method for
sampling from a distribution that approximates (or 'emulates') the result of
pre-training and fine-tuning at different scales. Our experiments with EFT show
that scaling up fine-tuning tends to improve helpfulness, while scaling up
pre-training tends to improve factuality. Beyond decoupling scale, we show that
EFT enables test-time adjustment of competing behavioral traits like
helpfulness and harmlessness without additional training. Finally, a special
case of emulated fine-tuning, which we call LM up-scaling, avoids
resource-intensive fine-tuning of large pre-trained models by ensembling them
with small fine-tuned models, essentially emulating the result of fine-tuning
the large pre-trained model. Up-scaling consistently improves helpfulness and
factuality of instruction-following models in the Llama, Llama-2, and Falcon
families, without additional hyperparameters or training.