Ajustement de la réponse : Alignement des grands modèles de langage sans instruction

papers.abstract

L'optimisation des instructions - le réglage supervisé en utilisant des paires instruction-réponse - est une étape fondamentale dans la transition des Modèles de Langage de Grande Taille (LLM) pré-entraînés en assistants de discussion utiles et sûrs. Notre hypothèse est que l'établissement d'un espace de sortie adéquat peut permettre une telle transition compte tenu des capacités inhérentes aux LLM pré-entraînés. Pour vérifier cela, nous proposons l'Ajustement des Réponses (RT), qui élimine l'étape de conditionnement par instruction dans l'optimisation des instructions et se concentre uniquement sur la supervision de l'espace des réponses. Nos expériences montrent que les modèles RT, entraînés uniquement à l'aide de réponses, peuvent répondre efficacement à un large éventail d'instructions et présenter une utilité comparable à celle de leurs homologues optimisés par instruction. De plus, nous observons que le contrôle de la distribution des réponses d'entraînement peut améliorer significativement leur préférence utilisateur ou susciter des comportements cibles tels que le refus d'aide pour des requêtes non sécurisées. Nos résultats mettent en lumière le rôle de l'établissement d'un espace de sortie adéquat en alignement, soulignant le potentiel des vastes capacités inhérentes des LLM pré-entraînés.

English

Instruction tuning-supervised fine-tuning using instruction-response pairs-is a foundational step in transitioning pre-trained Large Language Models (LLMs) into helpful and safe chat assistants. Our hypothesis is that establishing an adequate output space can enable such a transition given the capabilities inherent in pre-trained LLMs. To verify this, we propose Response Tuning (RT), which eliminates the instruction-conditioning step in instruction tuning and solely focuses on response space supervision. Our experiments demonstrate that RT models, trained only using responses, can effectively respond to a wide range of instructions and exhibit helpfulness comparable to that of their instruction-tuned counterparts. Furthermore, we observe that controlling the training response distribution can significantly improve their user preference or elicit target behaviors such as refusing assistance for unsafe queries. Our findings illuminate the role of establishing an adequate output space in alignment, highlighting the potential of the extensive inherent capabilities of pre-trained LLMs.

Ajustement de la réponse : Alignement des grands modèles de langage sans instruction

Response Tuning: Aligning Large Language Models without Instruction

papers.abstract

Support