Anleitungsbefolgung ohne Anleitungseinstellung

papers.abstract

Die Feinabstimmung von Anweisungen bedeutet in der Regel, ein Sprachmodell an Anweisungs-Antwort-Paaren anzupassen. Wir entdecken zwei Formen der Anpassung (Abstimmung), die im Vergleich zur Anpassung von Anweisungen mangelhaft sind, aber dennoch zu Anweisungsfolgen führen; dies bezeichnen wir als implizite Anpassung von Anweisungen. Zunächst stellen wir fest, dass Anweisungs-Antwort-Paare nicht notwendig sind: Das Training ausschließlich auf Antworten, ohne entsprechende Anweisungen, führt zu Anweisungsfolgen. Dies legt nahe, dass vorab trainierte Modelle eine Anweisungs-Antwort-Zuordnung haben, die durch das Lehren des Modells der gewünschten Verteilung von Antworten offenbart wird. Allerdings stellen wir dann fest, dass es nicht notwendig ist, die gewünschte Verteilung von Antworten zu lehren: Das Training von Anweisungen und Antworten auf eng begrenzten Daten wie Gedichten führt dennoch zu einem breiten Verhalten der Anweisungsfolge wie der Generierung von Rezepten. Insbesondere wenn Anweisungen sehr unterschiedlich von denen im eng begrenzten Feinabstimmungsbereich sind, halten sich die Antworten der Modelle nicht an den Stil des Feinabstimmungsbereichs. Um mit der Erklärung der impliziten Anpassung von Anweisungen zu beginnen, stellen wir die Hypothese auf, dass sehr einfache Änderungen an der Verteilung eines Sprachmodells zu Anweisungsfolgen führen. Wir unterstützen dies, indem wir ein regelbasiertes Sprachmodell von Hand schreiben, das in einem Produkt-von-Experten mit einem vorab trainierten Modell zu Anweisungsfolgen führt. Die Regeln bestehen darin, die Wahrscheinlichkeit des Beendens der Sequenz langsam zu erhöhen, Wiederholungen zu bestrafen und die Wahrscheinlichkeiten von 15 Wörtern gleichmäßig zu ändern. Zusammenfassend können Anpassungen, die nicht darauf ausgelegt sind, Anweisungsfolgen zu erzielen, dies implizit tun.

English

Instruction tuning commonly means finetuning a language model on instruction-response pairs. We discover two forms of adaptation (tuning) that are deficient compared to instruction tuning, yet still yield instruction following; we call this implicit instruction tuning. We first find that instruction-response pairs are not necessary: training solely on responses, without any corresponding instructions, yields instruction following. This suggests pretrained models have an instruction-response mapping which is revealed by teaching the model the desired distribution of responses. However, we then find it's not necessary to teach the desired distribution of responses: instruction-response training on narrow-domain data like poetry still leads to broad instruction-following behavior like recipe generation. In particular, when instructions are very different from those in the narrow finetuning domain, models' responses do not adhere to the style of the finetuning domain. To begin to explain implicit instruction tuning, we hypothesize that very simple changes to a language model's distribution yield instruction following. We support this by hand-writing a rule-based language model which yields instruction following in a product-of-experts with a pretrained model. The rules are to slowly increase the probability of ending the sequence, penalize repetition, and uniformly change 15 words' probabilities. In summary, adaptations made without being designed to yield instruction following can do so implicitly.

Anleitungsbefolgung ohne Anleitungseinstellung

Instruction Following without Instruction Tuning

papers.abstract

Support