ChatPaper.aiChatPaper

応答調整:指示なしで大規模言語モデルを整列させる

Response Tuning: Aligning Large Language Models without Instruction

October 3, 2024
著者: Seokhyun An, Hyounghun Kim
cs.AI

要旨

指示チューニングは、指示と応答のペアを使用した教師付きファインチューニングであり、事前にトレーニングされた大規模言語モデル(LLM)を有用で安全なチャットアシスタントに移行する際の基本的なステップです。私たちの仮説は、適切な出力空間を確立することで、事前にトレーニングされたLLMに固有の能力を活用して、このような移行を可能にできるというものです。これを検証するために、指示チューニングにおける指示条件付けステップを排除し、応答空間の監督にのみ焦点を当てるResponse Tuning(RT)を提案します。私たちの実験は、応答のみを使用して訓練されたRTモデルが、幅広い指示に効果的に応答し、その指示チューニングされた対応モデルと同等の有用性を示すことを示しています。さらに、トレーニング応答分布を制御することが、ユーザーの好みを大幅に向上させたり、安全でないクエリに対する支援を拒否するなどの目標行動を引き出すことができることを観察しています。私たちの調査結果は、適切な出力空間を確立することの役割を明らかにし、事前にトレーニングされたLLMの幅広い固有の能力の潜在性を強調しています。
English
Instruction tuning-supervised fine-tuning using instruction-response pairs-is a foundational step in transitioning pre-trained Large Language Models (LLMs) into helpful and safe chat assistants. Our hypothesis is that establishing an adequate output space can enable such a transition given the capabilities inherent in pre-trained LLMs. To verify this, we propose Response Tuning (RT), which eliminates the instruction-conditioning step in instruction tuning and solely focuses on response space supervision. Our experiments demonstrate that RT models, trained only using responses, can effectively respond to a wide range of instructions and exhibit helpfulness comparable to that of their instruction-tuned counterparts. Furthermore, we observe that controlling the training response distribution can significantly improve their user preference or elicit target behaviors such as refusing assistance for unsafe queries. Our findings illuminate the role of establishing an adequate output space in alignment, highlighting the potential of the extensive inherent capabilities of pre-trained LLMs.

Summary

AI-Generated Summary

PDF132November 16, 2024