Suivi des instructions sans réglage des instructions
Instruction Following without Instruction Tuning
September 21, 2024
Auteurs: John Hewitt, Nelson F. Liu, Percy Liang, Christopher D. Manning
cs.AI
Résumé
L'ajustement des instructions signifie généralement affiner un modèle de langage sur des paires d'instructions-réponses. Nous découvrons deux formes d'adaptation (ajustement) qui sont déficientes par rapport à l'ajustement des instructions, mais qui permettent toujours de suivre des instructions ; nous appelons cela ajustement implicite des instructions. Nous constatons tout d'abord que les paires d'instructions-réponses ne sont pas nécessaires : s'entraîner uniquement sur les réponses, sans aucune instruction correspondante, permet de suivre les instructions. Cela suggère que les modèles pré-entraînés ont un mappage instruction-réponse qui est révélé en enseignant au modèle la distribution désirée des réponses. Cependant, nous constatons ensuite qu'il n'est pas nécessaire d'enseigner la distribution désirée des réponses : l'entraînement instruction-réponse sur des données de domaine étroit comme la poésie conduit toujours à un comportement général de suivi des instructions comme la génération de recettes. En particulier, lorsque les instructions sont très différentes de celles du domaine d'affinage étroit, les réponses des modèles ne respectent pas le style du domaine d'affinage. Pour commencer à expliquer l'ajustement implicite des instructions, nous émettons l'hypothèse que des changements très simples dans la distribution d'un modèle de langage permettent de suivre des instructions. Nous étayons cela en écrivant à la main un modèle de langage basé sur des règles qui permet de suivre des instructions dans un produit d'experts avec un modèle pré-entraîné. Les règles consistent à augmenter lentement la probabilité de terminer la séquence, à pénaliser la répétition et à modifier uniformément les probabilités de 15 mots. En résumé, des adaptations effectuées sans être conçues pour permettre de suivre des instructions peuvent le faire de manière implicite.
English
Instruction tuning commonly means finetuning a language model on
instruction-response pairs. We discover two forms of adaptation (tuning) that
are deficient compared to instruction tuning, yet still yield instruction
following; we call this implicit instruction tuning. We first find that
instruction-response pairs are not necessary: training solely on responses,
without any corresponding instructions, yields instruction following. This
suggests pretrained models have an instruction-response mapping which is
revealed by teaching the model the desired distribution of responses. However,
we then find it's not necessary to teach the desired distribution of responses:
instruction-response training on narrow-domain data like poetry still leads to
broad instruction-following behavior like recipe generation. In particular,
when instructions are very different from those in the narrow finetuning
domain, models' responses do not adhere to the style of the finetuning domain.
To begin to explain implicit instruction tuning, we hypothesize that very
simple changes to a language model's distribution yield instruction following.
We support this by hand-writing a rule-based language model which yields
instruction following in a product-of-experts with a pretrained model. The
rules are to slowly increase the probability of ending the sequence, penalize
repetition, and uniformly change 15 words' probabilities. In summary,
adaptations made without being designed to yield instruction following can do
so implicitly.Summary
AI-Generated Summary