ChatPaper.aiChatPaper

Selbstinstruktion: Einführung von Frühstoppkriterien für minimales Instruktions-Tuning

Becoming self-instruct: introducing early stopping criteria for minimal instruct tuning

July 5, 2023
Autoren: Waseem AlShikh, Manhal Daaboul, Kirk Goddard, Brock Imel, Kiran Kamble, Parikshith Kulkarni, Melisa Russak
cs.AI

Zusammenfassung

In diesem Artikel führen wir den Instruction Following Score (IFS) ein, eine Metrik, die die Fähigkeit von Sprachmodellen, Anweisungen zu befolgen, erfasst. Die Metrik hat einen zweifachen Zweck. Erstens kann der IFS verwendet werden, um zwischen Basis- und Instruktionsmodellen zu unterscheiden. Wir benchmarken öffentlich verfügbare Basis- und Instruktionsmodelle und zeigen, dass das Verhältnis von gut formatierten Antworten zu Teil- und vollständigen Sätzen ein effektives Maß zur Unterscheidung dieser beiden Modellklassen darstellt. Zweitens kann die Metrik als frühes Abbruchkriterium für das Instruktions-Finetuning verwendet werden. Wir berechnen den IFS für das Supervised Fine-Tuning (SFT) von 7B- und 13B-LLaMA-Modellen und zeigen, dass Modelle relativ früh im Trainingsprozess lernen, Anweisungen zu befolgen, und dass weiteres Finetuning zu Veränderungen in der Semantik des zugrunde liegenden Basismodells führen kann. Als Beispiel für semantische Veränderungen zeigen wir die Objektivität der Modellvorhersagen, definiert durch eine zusätzliche Metrik, ObjecQA. Wir zeigen, dass in diesem speziellen Fall die semantischen Veränderungen am stärksten sind, wenn der IFS dazu neigt, ein Plateau zu erreichen. Wir hoffen, dass die Aufteilung des Instruktions-Finetunings in IFS und semantische Faktoren einen neuen Trend hin zu besser kontrollierbarem Instruktions-Finetuning einleitet und Möglichkeiten für die Gestaltung minimaler Instruktionsschnittstellen zur Abfrage von Foundation-Modellen eröffnet.
English
In this paper, we introduce the Instruction Following Score (IFS), a metric that detects language models' ability to follow instructions. The metric has a dual purpose. First, IFS can be used to distinguish between base and instruct models. We benchmark publicly available base and instruct models, and show that the ratio of well formatted responses to partial and full sentences can be an effective measure between those two model classes. Secondly, the metric can be used as an early stopping criteria for instruct tuning. We compute IFS for Supervised Fine-Tuning (SFT) of 7B and 13B LLaMA models, showing that models learn to follow instructions relatively early in the training process, and the further finetuning can result in changes in the underlying base model semantics. As an example of semantics change we show the objectivity of model predictions, as defined by an auxiliary metric ObjecQA. We show that in this particular case, semantic changes are the steepest when the IFS tends to plateau. We hope that decomposing instruct tuning into IFS and semantic factors starts a new trend in better controllable instruct tuning and opens possibilities for designing minimal instruct interfaces querying foundation models.
PDF264December 15, 2024