응답 튜닝: 지시 없이 대규모 언어 모델 조정하기
Response Tuning: Aligning Large Language Models without Instruction
October 3, 2024
저자: Seokhyun An, Hyounghun Kim
cs.AI
초록
지시 튜닝-지시-응답 쌍을 사용한 지도 미세 조정은 사전 훈련된 대형 언어 모델(LLM)을 유용하고 안전한 채팅 어시스턴트로 전환하는 데 필수적인 단계입니다. 우리의 가설은 적절한 출력 공간을 설정함으로써 사전 훈련된 LLM의 내재된 능력을 고려하여 이러한 전환을 가능하게 할 수 있다는 것입니다. 이를 확인하기 위해 우리는 지시 튜닝에서 지시 조건 단계를 제거하고 응답 공간 감독에만 집중하는 Response Tuning (RT)을 제안합니다. 우리의 실험은 RT 모델이 응답만을 사용하여 광범위한 지시에 효과적으로 응답하고 그들의 지시 조정된 상대와 유사한 유용성을 나타낼 수 있음을 보여줍니다. 게다가, 우리는 훈련 응답 분포를 제어함으로써 사용자 선호도를 크게 향상시키거나 안전하지 않은 쿼리에 대한 도움 거부와 같은 목표 행동을 유도할 수 있다는 것을 관찰합니다. 우리의 연구 결과는 적절한 출력 공간 설정의 역할을 명확히 하며, 사전 훈련된 LLM의 광범위한 내재된 능력의 잠재력을 강조합니다.
English
Instruction tuning-supervised fine-tuning using instruction-response pairs-is
a foundational step in transitioning pre-trained Large Language Models (LLMs)
into helpful and safe chat assistants. Our hypothesis is that establishing an
adequate output space can enable such a transition given the capabilities
inherent in pre-trained LLMs. To verify this, we propose Response Tuning (RT),
which eliminates the instruction-conditioning step in instruction tuning and
solely focuses on response space supervision. Our experiments demonstrate that
RT models, trained only using responses, can effectively respond to a wide
range of instructions and exhibit helpfulness comparable to that of their
instruction-tuned counterparts. Furthermore, we observe that controlling the
training response distribution can significantly improve their user preference
or elicit target behaviors such as refusing assistance for unsafe queries. Our
findings illuminate the role of establishing an adequate output space in
alignment, highlighting the potential of the extensive inherent capabilities of
pre-trained LLMs.Summary
AI-Generated Summary