Ajuste de Respuesta: Alineando Modelos de Lenguaje Grandes sin Instrucciones
Response Tuning: Aligning Large Language Models without Instruction
October 3, 2024
Autores: Seokhyun An, Hyounghun Kim
cs.AI
Resumen
La sintonización de instrucciones, un ajuste supervisado mediante el uso de pares de instrucciones-respuestas, es un paso fundamental en la transición de Modelos de Lenguaje Grandes (LLMs) pre-entrenados hacia asistentes de chat útiles y seguros. Nuestra hipótesis es que establecer un espacio de salida adecuado puede permitir dicha transición dadas las capacidades inherentes en los LLMs pre-entrenados. Para verificar esto, proponemos el Ajuste de Respuestas (RT), que elimina el paso de condicionamiento de instrucciones en la sintonización de instrucciones y se enfoca únicamente en la supervisión del espacio de respuestas. Nuestros experimentos demuestran que los modelos RT, entrenados solo utilizando respuestas, pueden responder efectivamente a una amplia gama de instrucciones y mostrar utilidad comparable a la de sus contrapartes ajustadas con instrucciones. Además, observamos que controlar la distribución de respuestas de entrenamiento puede mejorar significativamente la preferencia del usuario o provocar comportamientos deseados como rechazar asistencia para consultas inseguras. Nuestros hallazgos iluminan el papel de establecer un espacio de salida adecuado en alineación, resaltando el potencial de las extensas capacidades inherentes de los LLMs pre-entrenados.
English
Instruction tuning-supervised fine-tuning using instruction-response pairs-is
a foundational step in transitioning pre-trained Large Language Models (LLMs)
into helpful and safe chat assistants. Our hypothesis is that establishing an
adequate output space can enable such a transition given the capabilities
inherent in pre-trained LLMs. To verify this, we propose Response Tuning (RT),
which eliminates the instruction-conditioning step in instruction tuning and
solely focuses on response space supervision. Our experiments demonstrate that
RT models, trained only using responses, can effectively respond to a wide
range of instructions and exhibit helpfulness comparable to that of their
instruction-tuned counterparts. Furthermore, we observe that controlling the
training response distribution can significantly improve their user preference
or elicit target behaviors such as refusing assistance for unsafe queries. Our
findings illuminate the role of establishing an adequate output space in
alignment, highlighting the potential of the extensive inherent capabilities of
pre-trained LLMs.Summary
AI-Generated Summary