Zelf-instruct worden: introductie van vroege stopcriteria voor minimale instructie-afstemming

Samenvatting

In dit artikel introduceren we de Instruction Following Score (IFS), een metriek die het vermogen van taalmodellen om instructies te volgen detecteert. De metriek heeft een tweeledig doel. Ten eerste kan IFS worden gebruikt om onderscheid te maken tussen basis- en instructiemodellen. We benchmarken publiek beschikbare basis- en instructiemodellen en laten zien dat de verhouding tussen goed geformatteerde antwoorden en gedeeltelijke en volledige zinnen een effectieve maatstaf kan zijn tussen deze twee modelklassen. Ten tweede kan de metriek worden gebruikt als een vroegtijdige stopcriteria voor instructieafstemming. We berekenen IFS voor Supervised Fine-Tuning (SFT) van 7B en 13B LLaMA-modellen en tonen aan dat modellen relatief vroeg in het trainingsproces leren om instructies te volgen, en dat verdere afstemming kan leiden tot veranderingen in de onderliggende semantiek van het basismodel. Als voorbeeld van semantische verandering tonen we de objectiviteit van modelvoorspellingen, zoals gedefinieerd door een aanvullende metriek ObjecQA. We laten zien dat in dit specifieke geval de semantische veranderingen het grootst zijn wanneer de IFS de neiging heeft om te stabiliseren. We hopen dat het opdelen van instructieafstemming in IFS en semantische factoren een nieuwe trend inluidt voor beter beheersbare instructieafstemming en mogelijkheden opent voor het ontwerpen van minimale instructie-interfaces voor het bevragen van foundation-modellen.

English

In this paper, we introduce the Instruction Following Score (IFS), a metric that detects language models' ability to follow instructions. The metric has a dual purpose. First, IFS can be used to distinguish between base and instruct models. We benchmark publicly available base and instruct models, and show that the ratio of well formatted responses to partial and full sentences can be an effective measure between those two model classes. Secondly, the metric can be used as an early stopping criteria for instruct tuning. We compute IFS for Supervised Fine-Tuning (SFT) of 7B and 13B LLaMA models, showing that models learn to follow instructions relatively early in the training process, and the further finetuning can result in changes in the underlying base model semantics. As an example of semantics change we show the objectivity of model predictions, as defined by an auxiliary metric ObjecQA. We show that in this particular case, semantic changes are the steepest when the IFS tends to plateau. We hope that decomposing instruct tuning into IFS and semantic factors starts a new trend in better controllable instruct tuning and opens possibilities for designing minimal instruct interfaces querying foundation models.

Zelf-instruct worden: introductie van vroege stopcriteria voor minimale instructie-afstemming

Becoming self-instruct: introducing early stopping criteria for minimal instruct tuning

Samenvatting

Support