ChatPaper.aiChatPaper

指示調整なしでの指示従う

Instruction Following without Instruction Tuning

September 21, 2024
著者: John Hewitt, Nelson F. Liu, Percy Liang, Christopher D. Manning
cs.AI

要旨

指示チューニングは、通常、言語モデルを指示-応答ペアに微調整することを意味します。私たちは、指示チューニングに比べて不十分な2つの適応(チューニング)の形態を発見しましたが、それでも指示に従う結果をもたらします。これを暗黙の指示チューニングと呼びます。ますます、指示-応答ペアが必要ないことがわかりました。指示と対応する指示がなくても、応答のみでトレーニングを行うと、指示に従う結果が得られます。これは、事前学習済みモデルが、モデルに望ましい応答の分布を教えることで明らかになる指示-応答マッピングを持っていることを示唆しています。ただし、望ましい応答の分布を教える必要がないこともわかりました。詩などの狭いドメインデータでの指示-応答トレーニングでも、広範な指示に従う振る舞い、例えばレシピ生成が可能です。特に、指示が狭い微調整ドメインのものと非常に異なる場合、モデルの応答は微調整ドメインのスタイルに従わないことがあります。暗黙の指示チューニングを説明するために、言語モデルの分布に非常に単純な変更が指示に従う結果をもたらすという仮説を立てました。これを支持するために、事前学習済みモデルとの専門家の積のルールベース言語モデルを手書きで作成し、指示に従う結果を得ました。ルールは、シーケンスを終了する確率を徐々に増やす、繰り返しを罰する、15語の確率を一様に変更する、というものです。要約すると、指示に従う結果を得るために設計されていない適応が、暗黙的にそれを達成できる可能性があります。
English
Instruction tuning commonly means finetuning a language model on instruction-response pairs. We discover two forms of adaptation (tuning) that are deficient compared to instruction tuning, yet still yield instruction following; we call this implicit instruction tuning. We first find that instruction-response pairs are not necessary: training solely on responses, without any corresponding instructions, yields instruction following. This suggests pretrained models have an instruction-response mapping which is revealed by teaching the model the desired distribution of responses. However, we then find it's not necessary to teach the desired distribution of responses: instruction-response training on narrow-domain data like poetry still leads to broad instruction-following behavior like recipe generation. In particular, when instructions are very different from those in the narrow finetuning domain, models' responses do not adhere to the style of the finetuning domain. To begin to explain implicit instruction tuning, we hypothesize that very simple changes to a language model's distribution yield instruction following. We support this by hand-writing a rule-based language model which yields instruction following in a product-of-experts with a pretrained model. The rules are to slowly increase the probability of ending the sequence, penalize repetition, and uniformly change 15 words' probabilities. In summary, adaptations made without being designed to yield instruction following can do so implicitly.

Summary

AI-Generated Summary

PDF314November 16, 2024