Devenir autonome dans l'instruction : introduction de critères d'arrêt précoce pour un réglage minimal de l'instruction
Becoming self-instruct: introducing early stopping criteria for minimal instruct tuning
July 5, 2023
Auteurs: Waseem AlShikh, Manhal Daaboul, Kirk Goddard, Brock Imel, Kiran Kamble, Parikshith Kulkarni, Melisa Russak
cs.AI
Résumé
Dans cet article, nous introduisons le Score de Suivi d'Instructions (Instruction Following Score, IFS), une métrique qui évalue la capacité des modèles de langage à suivre des instructions. Cette métrique a un double objectif. Premièrement, l'IFS peut être utilisé pour distinguer les modèles de base des modèles d'instruction. Nous évaluons des modèles de base et d'instruction disponibles publiquement, et montrons que le ratio de réponses bien formatées par rapport aux phrases partielles et complètes peut être une mesure efficace pour différencier ces deux classes de modèles. Deuxièmement, la métrique peut servir de critère d'arrêt précoce pour le réglage des modèles d'instruction. Nous calculons l'IFS pour le réglage supervisé (Supervised Fine-Tuning, SFT) des modèles LLaMA de 7B et 13B, montrant que les modèles apprennent à suivre les instructions relativement tôt dans le processus d'entraînement, et qu'un réglage supplémentaire peut entraîner des changements dans la sémantique du modèle de base sous-jacent. Comme exemple de changement sémantique, nous montrons l'objectivité des prédictions du modèle, telle que définie par une métrique auxiliaire, ObjecQA. Nous montrons que dans ce cas particulier, les changements sémantiques sont les plus marqués lorsque l'IFS tend à se stabiliser. Nous espérons que la décomposition du réglage d'instruction en facteurs IFS et sémantiques initie une nouvelle tendance vers un réglage d'instruction mieux contrôlable et ouvre des possibilités pour concevoir des interfaces d'instruction minimales interrogeant des modèles de fondation.
English
In this paper, we introduce the Instruction Following Score (IFS), a metric
that detects language models' ability to follow instructions. The metric has a
dual purpose. First, IFS can be used to distinguish between base and instruct
models. We benchmark publicly available base and instruct models, and show that
the ratio of well formatted responses to partial and full sentences can be an
effective measure between those two model classes. Secondly, the metric can be
used as an early stopping criteria for instruct tuning. We compute IFS for
Supervised Fine-Tuning (SFT) of 7B and 13B LLaMA models, showing that models
learn to follow instructions relatively early in the training process, and the
further finetuning can result in changes in the underlying base model
semantics. As an example of semantics change we show the objectivity of model
predictions, as defined by an auxiliary metric ObjecQA. We show that in this
particular case, semantic changes are the steepest when the IFS tends to
plateau. We hope that decomposing instruct tuning into IFS and semantic factors
starts a new trend in better controllable instruct tuning and opens
possibilities for designing minimal instruct interfaces querying foundation
models.