Ajuste de Resposta: Alinhando Modelos de Linguagem Grandes sem Instrução
Response Tuning: Aligning Large Language Models without Instruction
October 3, 2024
Autores: Seokhyun An, Hyounghun Kim
cs.AI
Resumo
A afinação de instruções - ajuste fino supervisionado usando pares de instrução-resposta - é um passo fundamental na transição de Modelos de Linguagem Grandes (LLMs) pré-treinados em assistentes de chat úteis e seguros. Nossa hipótese é que estabelecer um espaço de saída adequado pode permitir essa transição, dadas as capacidades inerentes nos LLMs pré-treinados. Para verificar isso, propomos o Ajuste de Resposta (RT), que elimina a etapa de condicionamento de instrução na afinação de instruções e foca exclusivamente na supervisão do espaço de resposta. Nossos experimentos demonstram que modelos RT, treinados apenas com respostas, podem responder efetivamente a uma ampla gama de instruções e exibir utilidade comparável à de seus equivalentes ajustados por instrução. Além disso, observamos que controlar a distribuição de respostas de treinamento pode melhorar significativamente a preferência do usuário ou provocar comportamentos-alvo, como recusar assistência para consultas inseguras. Nossas descobertas iluminam o papel de estabelecer um espaço de saída adequado em alinhamento, destacando o potencial das extensas capacidades inerentes dos LLMs pré-treinados.
English
Instruction tuning-supervised fine-tuning using instruction-response pairs-is
a foundational step in transitioning pre-trained Large Language Models (LLMs)
into helpful and safe chat assistants. Our hypothesis is that establishing an
adequate output space can enable such a transition given the capabilities
inherent in pre-trained LLMs. To verify this, we propose Response Tuning (RT),
which eliminates the instruction-conditioning step in instruction tuning and
solely focuses on response space supervision. Our experiments demonstrate that
RT models, trained only using responses, can effectively respond to a wide
range of instructions and exhibit helpfulness comparable to that of their
instruction-tuned counterparts. Furthermore, we observe that controlling the
training response distribution can significantly improve their user preference
or elicit target behaviors such as refusing assistance for unsafe queries. Our
findings illuminate the role of establishing an adequate output space in
alignment, highlighting the potential of the extensive inherent capabilities of
pre-trained LLMs.