Ajustement de la réponse : Alignement des grands modèles de langage sans instruction
Response Tuning: Aligning Large Language Models without Instruction
October 3, 2024
Auteurs: Seokhyun An, Hyounghun Kim
cs.AI
Résumé
L'optimisation des instructions - le réglage supervisé en utilisant des paires instruction-réponse - est une étape fondamentale dans la transition des Modèles de Langage de Grande Taille (LLM) pré-entraînés en assistants de discussion utiles et sûrs. Notre hypothèse est que l'établissement d'un espace de sortie adéquat peut permettre une telle transition compte tenu des capacités inhérentes aux LLM pré-entraînés. Pour vérifier cela, nous proposons l'Ajustement des Réponses (RT), qui élimine l'étape de conditionnement par instruction dans l'optimisation des instructions et se concentre uniquement sur la supervision de l'espace des réponses. Nos expériences montrent que les modèles RT, entraînés uniquement à l'aide de réponses, peuvent répondre efficacement à un large éventail d'instructions et présenter une utilité comparable à celle de leurs homologues optimisés par instruction. De plus, nous observons que le contrôle de la distribution des réponses d'entraînement peut améliorer significativement leur préférence utilisateur ou susciter des comportements cibles tels que le refus d'aide pour des requêtes non sécurisées. Nos résultats mettent en lumière le rôle de l'établissement d'un espace de sortie adéquat en alignement, soulignant le potentiel des vastes capacités inhérentes des LLM pré-entraînés.
English
Instruction tuning-supervised fine-tuning using instruction-response pairs-is
a foundational step in transitioning pre-trained Large Language Models (LLMs)
into helpful and safe chat assistants. Our hypothesis is that establishing an
adequate output space can enable such a transition given the capabilities
inherent in pre-trained LLMs. To verify this, we propose Response Tuning (RT),
which eliminates the instruction-conditioning step in instruction tuning and
solely focuses on response space supervision. Our experiments demonstrate that
RT models, trained only using responses, can effectively respond to a wide
range of instructions and exhibit helpfulness comparable to that of their
instruction-tuned counterparts. Furthermore, we observe that controlling the
training response distribution can significantly improve their user preference
or elicit target behaviors such as refusing assistance for unsafe queries. Our
findings illuminate the role of establishing an adequate output space in
alignment, highlighting the potential of the extensive inherent capabilities of
pre-trained LLMs.Summary
AI-Generated Summary