ChatPaper.aiChatPaper

Seguimento de Instruções sem Ajuste de Instruções

Instruction Following without Instruction Tuning

September 21, 2024
Autores: John Hewitt, Nelson F. Liu, Percy Liang, Christopher D. Manning
cs.AI

Resumo

A afinação de instruções comumente significa ajustar um modelo de linguagem em pares de instrução-resposta. Descobrimos duas formas de adaptação (afinação) que são deficientes em comparação com a afinação de instruções, mas ainda resultam em seguir instruções; chamamos isso de afinação de instruções implícita. Primeiramente, constatamos que pares de instrução-resposta não são necessários: treinar apenas com respostas, sem quaisquer instruções correspondentes, resulta em seguir instruções. Isso sugere que modelos pré-treinados possuem um mapeamento de instrução-resposta que é revelado ao ensinar ao modelo a distribuição desejada de respostas. No entanto, então descobrimos que não é necessário ensinar a distribuição desejada de respostas: o treinamento de instrução-resposta em dados de domínio estreito, como poesia, ainda leva a comportamentos amplos de seguir instruções, como a geração de receitas. Em particular, quando as instruções são muito diferentes daquelas no domínio estreito de afinação, as respostas dos modelos não seguem o estilo do domínio de afinação. Para começar a explicar a afinação de instruções implícita, formulamos a hipótese de que mudanças muito simples na distribuição de um modelo de linguagem resultam em seguir instruções. Apoiamos isso escrevendo manualmente um modelo de linguagem baseado em regras que resulta em seguir instruções em um produto de especialistas com um modelo pré-treinado. As regras são aumentar lentamente a probabilidade de encerrar a sequência, penalizar repetições e uniformemente alterar as probabilidades de 15 palavras. Em resumo, adaptações feitas sem serem projetadas para resultar em seguir instruções podem fazê-lo implicitamente.
English
Instruction tuning commonly means finetuning a language model on instruction-response pairs. We discover two forms of adaptation (tuning) that are deficient compared to instruction tuning, yet still yield instruction following; we call this implicit instruction tuning. We first find that instruction-response pairs are not necessary: training solely on responses, without any corresponding instructions, yields instruction following. This suggests pretrained models have an instruction-response mapping which is revealed by teaching the model the desired distribution of responses. However, we then find it's not necessary to teach the desired distribution of responses: instruction-response training on narrow-domain data like poetry still leads to broad instruction-following behavior like recipe generation. In particular, when instructions are very different from those in the narrow finetuning domain, models' responses do not adhere to the style of the finetuning domain. To begin to explain implicit instruction tuning, we hypothesize that very simple changes to a language model's distribution yield instruction following. We support this by hand-writing a rule-based language model which yields instruction following in a product-of-experts with a pretrained model. The rules are to slowly increase the probability of ending the sequence, penalize repetition, and uniformly change 15 words' probabilities. In summary, adaptations made without being designed to yield instruction following can do so implicitly.

Summary

AI-Generated Summary

PDF314November 16, 2024