Instructievolgen zonder instructieafstemming.
Instruction Following without Instruction Tuning
September 21, 2024
Auteurs: John Hewitt, Nelson F. Liu, Percy Liang, Christopher D. Manning
cs.AI
Samenvatting
Instructieafstemming betekent doorgaans het finetunen van een taalmodel op instructie-antwoordparen. We ontdekken twee vormen van aanpassing (afstemming) die tekortschieten in vergelijking met instructieafstemming, maar toch instructieopvolging opleveren; we noemen dit impliciete instructieafstemming. We vinden eerst dat instructie-antwoordparen niet noodzakelijk zijn: training uitsluitend op antwoorden, zonder bijbehorende instructies, leidt tot instructieopvolging. Dit suggereert dat vooraf getrainde modellen een instructie-antwoordafbeelding hebben die wordt onthuld door het model de gewenste verdeling van antwoorden bij te brengen. Echter, we vinden vervolgens dat het niet nodig is om de gewenste verdeling van antwoorden bij te brengen: instructie-antwoordtraining op smal domeingegevens zoals poëzie leidt nog steeds tot brede instructieopvolgingsgedrag zoals receptengeneratie. In het bijzonder, wanneer instructies heel verschillend zijn van die in het smalle finetuningdomein, voldoen de reacties van modellen niet aan de stijl van het finetuningdomein. Om impliciete instructieafstemming te verklaren, hypothetiseren we dat zeer eenvoudige veranderingen in de distributie van een taalmodel instructieopvolging opleveren. We ondersteunen dit door een op regels gebaseerd taalmodel met de hand te schrijven dat instructieopvolging oplevert in een product-van-experts met een vooraf getraind model. De regels zijn om langzaam de waarschijnlijkheid van het beëindigen van de sequentie te verhogen, herhaling te bestraffen, en uniform de waarschijnlijkheden van 15 woorden te veranderen. Samengevat, aanpassingen die worden gemaakt zonder te zijn ontworpen om instructieopvolging op te leveren, kunnen dit impliciet doen.
English
Instruction tuning commonly means finetuning a language model on
instruction-response pairs. We discover two forms of adaptation (tuning) that
are deficient compared to instruction tuning, yet still yield instruction
following; we call this implicit instruction tuning. We first find that
instruction-response pairs are not necessary: training solely on responses,
without any corresponding instructions, yields instruction following. This
suggests pretrained models have an instruction-response mapping which is
revealed by teaching the model the desired distribution of responses. However,
we then find it's not necessary to teach the desired distribution of responses:
instruction-response training on narrow-domain data like poetry still leads to
broad instruction-following behavior like recipe generation. In particular,
when instructions are very different from those in the narrow finetuning
domain, models' responses do not adhere to the style of the finetuning domain.
To begin to explain implicit instruction tuning, we hypothesize that very
simple changes to a language model's distribution yield instruction following.
We support this by hand-writing a rule-based language model which yields
instruction following in a product-of-experts with a pretrained model. The
rules are to slowly increase the probability of ending the sequence, penalize
repetition, and uniformly change 15 words' probabilities. In summary,
adaptations made without being designed to yield instruction following can do
so implicitly.Summary
AI-Generated Summary