Devenir autonome dans l'instruction : introduction de critères d'arrêt précoce pour un réglage minimal de l'instruction

Résumé

Dans cet article, nous introduisons le Score de Suivi d'Instructions (Instruction Following Score, IFS), une métrique qui évalue la capacité des modèles de langage à suivre des instructions. Cette métrique a un double objectif. Premièrement, l'IFS peut être utilisé pour distinguer les modèles de base des modèles d'instruction. Nous évaluons des modèles de base et d'instruction disponibles publiquement, et montrons que le ratio de réponses bien formatées par rapport aux phrases partielles et complètes peut être une mesure efficace pour différencier ces deux classes de modèles. Deuxièmement, la métrique peut servir de critère d'arrêt précoce pour le réglage des modèles d'instruction. Nous calculons l'IFS pour le réglage supervisé (Supervised Fine-Tuning, SFT) des modèles LLaMA de 7B et 13B, montrant que les modèles apprennent à suivre les instructions relativement tôt dans le processus d'entraînement, et qu'un réglage supplémentaire peut entraîner des changements dans la sémantique du modèle de base sous-jacent. Comme exemple de changement sémantique, nous montrons l'objectivité des prédictions du modèle, telle que définie par une métrique auxiliaire, ObjecQA. Nous montrons que dans ce cas particulier, les changements sémantiques sont les plus marqués lorsque l'IFS tend à se stabiliser. Nous espérons que la décomposition du réglage d'instruction en facteurs IFS et sémantiques initie une nouvelle tendance vers un réglage d'instruction mieux contrôlable et ouvre des possibilités pour concevoir des interfaces d'instruction minimales interrogeant des modèles de fondation.

English

In this paper, we introduce the Instruction Following Score (IFS), a metric that detects language models' ability to follow instructions. The metric has a dual purpose. First, IFS can be used to distinguish between base and instruct models. We benchmark publicly available base and instruct models, and show that the ratio of well formatted responses to partial and full sentences can be an effective measure between those two model classes. Secondly, the metric can be used as an early stopping criteria for instruct tuning. We compute IFS for Supervised Fine-Tuning (SFT) of 7B and 13B LLaMA models, showing that models learn to follow instructions relatively early in the training process, and the further finetuning can result in changes in the underlying base model semantics. As an example of semantics change we show the objectivity of model predictions, as defined by an auxiliary metric ObjecQA. We show that in this particular case, semantic changes are the steepest when the IFS tends to plateau. We hope that decomposing instruct tuning into IFS and semantic factors starts a new trend in better controllable instruct tuning and opens possibilities for designing minimal instruct interfaces querying foundation models.

Devenir autonome dans l'instruction : introduction de critères d'arrêt précoce pour un réglage minimal de l'instruction

Becoming self-instruct: introducing early stopping criteria for minimal instruct tuning

Résumé

Support