ChatPaper.aiChatPaper

Настройка ответов: Выравнивание больших языковых моделей без инструкций

Response Tuning: Aligning Large Language Models without Instruction

October 3, 2024
Авторы: Seokhyun An, Hyounghun Kim
cs.AI

Аннотация

Настройка инструкций - надзорное дообучение с использованием пар инструкция-ответ - является ключевым шагом при переходе предварительно обученных моделей больших языковых моделей (LLM) в полезных и безопасных чат-ассистентов. Наша гипотеза заключается в том, что создание адекватного пространства вывода может обеспечить такой переход, учитывая возможности, присущие предварительно обученным LLM. Для проверки этого мы предлагаем метод настройки ответов (RT), который устраняет этап условной настройки инструкций в настройке инструкций и сосредотачивается исключительно на надзоре за пространством ответов. Наши эксперименты показывают, что модели RT, обученные только с использованием ответов, могут эффективно реагировать на широкий спектр инструкций и проявлять полезность, сравнимую с их контрольными моделями, обученными по инструкциям. Более того, мы замечаем, что контроль над распределением обучающих ответов может значительно улучшить предпочтения пользователей или вызвать целевые поведенческие реакции, такие как отказ от помощи при небезопасных запросах. Наши результаты проливают свет на роль создания адекватного пространства вывода в выравнивании, подчеркивая потенциал обширных встроенных возможностей предварительно обученных LLM.
English
Instruction tuning-supervised fine-tuning using instruction-response pairs-is a foundational step in transitioning pre-trained Large Language Models (LLMs) into helpful and safe chat assistants. Our hypothesis is that establishing an adequate output space can enable such a transition given the capabilities inherent in pre-trained LLMs. To verify this, we propose Response Tuning (RT), which eliminates the instruction-conditioning step in instruction tuning and solely focuses on response space supervision. Our experiments demonstrate that RT models, trained only using responses, can effectively respond to a wide range of instructions and exhibit helpfulness comparable to that of their instruction-tuned counterparts. Furthermore, we observe that controlling the training response distribution can significantly improve their user preference or elicit target behaviors such as refusing assistance for unsafe queries. Our findings illuminate the role of establishing an adequate output space in alignment, highlighting the potential of the extensive inherent capabilities of pre-trained LLMs.

Summary

AI-Generated Summary

PDF132November 16, 2024