Anleitungsbefolgung ohne Anleitungseinstellung
Instruction Following without Instruction Tuning
September 21, 2024
Autoren: John Hewitt, Nelson F. Liu, Percy Liang, Christopher D. Manning
cs.AI
Zusammenfassung
Die Feinabstimmung von Anweisungen bedeutet in der Regel, ein Sprachmodell an Anweisungs-Antwort-Paaren anzupassen. Wir entdecken zwei Formen der Anpassung (Abstimmung), die im Vergleich zur Anpassung von Anweisungen mangelhaft sind, aber dennoch zu Anweisungsfolgen führen; dies bezeichnen wir als implizite Anpassung von Anweisungen. Zunächst stellen wir fest, dass Anweisungs-Antwort-Paare nicht notwendig sind: Das Training ausschließlich auf Antworten, ohne entsprechende Anweisungen, führt zu Anweisungsfolgen. Dies legt nahe, dass vorab trainierte Modelle eine Anweisungs-Antwort-Zuordnung haben, die durch das Lehren des Modells der gewünschten Verteilung von Antworten offenbart wird. Allerdings stellen wir dann fest, dass es nicht notwendig ist, die gewünschte Verteilung von Antworten zu lehren: Das Training von Anweisungen und Antworten auf eng begrenzten Daten wie Gedichten führt dennoch zu einem breiten Verhalten der Anweisungsfolge wie der Generierung von Rezepten. Insbesondere wenn Anweisungen sehr unterschiedlich von denen im eng begrenzten Feinabstimmungsbereich sind, halten sich die Antworten der Modelle nicht an den Stil des Feinabstimmungsbereichs. Um mit der Erklärung der impliziten Anpassung von Anweisungen zu beginnen, stellen wir die Hypothese auf, dass sehr einfache Änderungen an der Verteilung eines Sprachmodells zu Anweisungsfolgen führen. Wir unterstützen dies, indem wir ein regelbasiertes Sprachmodell von Hand schreiben, das in einem Produkt-von-Experten mit einem vorab trainierten Modell zu Anweisungsfolgen führt. Die Regeln bestehen darin, die Wahrscheinlichkeit des Beendens der Sequenz langsam zu erhöhen, Wiederholungen zu bestrafen und die Wahrscheinlichkeiten von 15 Wörtern gleichmäßig zu ändern. Zusammenfassend können Anpassungen, die nicht darauf ausgelegt sind, Anweisungsfolgen zu erzielen, dies implizit tun.
English
Instruction tuning commonly means finetuning a language model on
instruction-response pairs. We discover two forms of adaptation (tuning) that
are deficient compared to instruction tuning, yet still yield instruction
following; we call this implicit instruction tuning. We first find that
instruction-response pairs are not necessary: training solely on responses,
without any corresponding instructions, yields instruction following. This
suggests pretrained models have an instruction-response mapping which is
revealed by teaching the model the desired distribution of responses. However,
we then find it's not necessary to teach the desired distribution of responses:
instruction-response training on narrow-domain data like poetry still leads to
broad instruction-following behavior like recipe generation. In particular,
when instructions are very different from those in the narrow finetuning
domain, models' responses do not adhere to the style of the finetuning domain.
To begin to explain implicit instruction tuning, we hypothesize that very
simple changes to a language model's distribution yield instruction following.
We support this by hand-writing a rule-based language model which yields
instruction following in a product-of-experts with a pretrained model. The
rules are to slowly increase the probability of ending the sequence, penalize
repetition, and uniformly change 15 words' probabilities. In summary,
adaptations made without being designed to yield instruction following can do
so implicitly.Summary
AI-Generated Summary