Seguimiento de Instrucciones sin Ajuste de Instrucciones
Instruction Following without Instruction Tuning
September 21, 2024
Autores: John Hewitt, Nelson F. Liu, Percy Liang, Christopher D. Manning
cs.AI
Resumen
Ajustar instrucciones comúnmente implica afinar un modelo de lenguaje en pares de instrucción-respuesta. Descubrimos dos formas de adaptación (ajuste) que son deficientes en comparación con el ajuste de instrucciones, pero aún así producen seguimiento de instrucciones; a esto lo llamamos ajuste de instrucciones implícito. Encontramos primero que los pares de instrucción-respuesta no son necesarios: entrenar únicamente en respuestas, sin instrucciones correspondientes, produce seguimiento de instrucciones. Esto sugiere que los modelos preentrenados tienen un mapeo de instrucción-respuesta que se revela al enseñar al modelo la distribución deseada de respuestas. Sin embargo, luego descubrimos que no es necesario enseñar la distribución deseada de respuestas: el entrenamiento de instrucción-respuesta en datos de dominio estrecho como la poesía aún conduce a un comportamiento amplio de seguimiento de instrucciones como la generación de recetas. En particular, cuando las instrucciones son muy diferentes de las del dominio de ajuste estrecho, las respuestas de los modelos no se adhieren al estilo del dominio de ajuste. Para comenzar a explicar el ajuste de instrucciones implícito, postulamos que cambios muy simples en la distribución de un modelo de lenguaje producen seguimiento de instrucciones. Apoyamos esto escribiendo a mano un modelo de lenguaje basado en reglas que produce seguimiento de instrucciones en un producto de expertos con un modelo preentrenado. Las reglas consisten en aumentar lentamente la probabilidad de finalizar la secuencia, penalizar la repetición y cambiar uniformemente las probabilidades de 15 palabras. En resumen, las adaptaciones realizadas sin estar diseñadas para producir seguimiento de instrucciones pueden hacerlo de forma implícita.
English
Instruction tuning commonly means finetuning a language model on
instruction-response pairs. We discover two forms of adaptation (tuning) that
are deficient compared to instruction tuning, yet still yield instruction
following; we call this implicit instruction tuning. We first find that
instruction-response pairs are not necessary: training solely on responses,
without any corresponding instructions, yields instruction following. This
suggests pretrained models have an instruction-response mapping which is
revealed by teaching the model the desired distribution of responses. However,
we then find it's not necessary to teach the desired distribution of responses:
instruction-response training on narrow-domain data like poetry still leads to
broad instruction-following behavior like recipe generation. In particular,
when instructions are very different from those in the narrow finetuning
domain, models' responses do not adhere to the style of the finetuning domain.
To begin to explain implicit instruction tuning, we hypothesize that very
simple changes to a language model's distribution yield instruction following.
We support this by hand-writing a rule-based language model which yields
instruction following in a product-of-experts with a pretrained model. The
rules are to slowly increase the probability of ending the sequence, penalize
repetition, and uniformly change 15 words' probabilities. In summary,
adaptations made without being designed to yield instruction following can do
so implicitly.Summary
AI-Generated Summary