Следование инструкциям без настройки инструкций
Instruction Following without Instruction Tuning
September 21, 2024
Авторы: John Hewitt, Nelson F. Liu, Percy Liang, Christopher D. Manning
cs.AI
Аннотация
Настройка инструкций обычно означает точную настройку языковой модели на пары инструкция-ответ. Мы обнаружили две формы адаптации (настройки), которые уступают настройке по инструкциям, но все же приводят к следованию инструкциям; мы называем это неявной настройкой по инструкциям. Сначала мы обнаружили, что пары инструкция-ответ не являются обязательными: обучение только на ответах, без соответствующих инструкций, приводит к следованию инструкциям. Это указывает на то, что предварительно обученные модели имеют отображение инструкция-ответ, которое проявляется при обучении модели желаемому распределению ответов. Однако мы затем обнаружили, что не обязательно обучать желаемому распределению ответов: обучение по инструкциям-ответам на узкодоменных данных, например, поэзии, все равно приводит к широкому следованию инструкциям, например, генерации рецептов. В частности, когда инструкции сильно отличаются от тех, что в узкой области тонкой настройки, ответы моделей не соответствуют стилю области тонкой настройки. Чтобы начать объяснять неявную настройку по инструкциям, мы предполагаем, что очень простые изменения в распределении языковой модели приводят к следованию инструкциям. Мы поддерживаем это, написав вручную правила для языковой модели на основе правил, которая приводит к следованию инструкциям в произведении экспертов с предварительно обученной моделью. Правила заключаются в медленном увеличении вероятности завершения последовательности, штрафе за повторы и равномерном изменении вероятностей 15 слов. В заключение, адаптации, сделанные без цели привести к следованию инструкциям, могут делать это неявно.
English
Instruction tuning commonly means finetuning a language model on
instruction-response pairs. We discover two forms of adaptation (tuning) that
are deficient compared to instruction tuning, yet still yield instruction
following; we call this implicit instruction tuning. We first find that
instruction-response pairs are not necessary: training solely on responses,
without any corresponding instructions, yields instruction following. This
suggests pretrained models have an instruction-response mapping which is
revealed by teaching the model the desired distribution of responses. However,
we then find it's not necessary to teach the desired distribution of responses:
instruction-response training on narrow-domain data like poetry still leads to
broad instruction-following behavior like recipe generation. In particular,
when instructions are very different from those in the narrow finetuning
domain, models' responses do not adhere to the style of the finetuning domain.
To begin to explain implicit instruction tuning, we hypothesize that very
simple changes to a language model's distribution yield instruction following.
We support this by hand-writing a rule-based language model which yields
instruction following in a product-of-experts with a pretrained model. The
rules are to slowly increase the probability of ending the sequence, penalize
repetition, and uniformly change 15 words' probabilities. In summary,
adaptations made without being designed to yield instruction following can do
so implicitly.Summary
AI-Generated Summary