Antwortabstimmung: Ausrichtung großer Sprachmodelle ohne Anleitung
Response Tuning: Aligning Large Language Models without Instruction
October 3, 2024
Autoren: Seokhyun An, Hyounghun Kim
cs.AI
Zusammenfassung
Die Anpassung von Anweisungen - überwachtes Feintuning unter Verwendung von Anweisungs-Antwort-Paaren - ist ein grundlegender Schritt bei der Überführung vorab trainierter großer Sprachmodelle (LLMs) in hilfreiche und sichere Chat-Assistenten. Unsere Hypothese besagt, dass die Schaffung eines angemessenen Ausgaberaums einen solchen Übergang ermöglichen kann, angesichts der Fähigkeiten, die in vorab trainierten LLMs angelegt sind. Zur Überprüfung schlagen wir die Response-Anpassung (RT) vor, die den Anweisungs-Konditionierungsschritt beim Anpassen von Anweisungen eliminiert und sich ausschließlich auf die Überwachung des Antwortraums konzentriert. Unsere Experimente zeigen, dass RT-Modelle, die nur mit Antworten trainiert wurden, effektiv auf eine Vielzahl von Anweisungen reagieren können und eine Hilfsbereitschaft aufweisen, die mit der ihrer anweisungsangepassten Gegenstücke vergleichbar ist. Darüber hinaus beobachten wir, dass die Kontrolle der Trainingsantwortverteilung ihre Benutzerpräferenz signifikant verbessern oder Zielverhaltensweisen wie die Ablehnung von Hilfe bei unsicheren Anfragen hervorrufen kann. Unsere Ergebnisse verdeutlichen die Rolle der Schaffung eines angemessenen Ausgaberaums in der Ausrichtung und heben das Potenzial der umfangreichen inhärenten Fähigkeiten vorab trainierter LLMs hervor.
English
Instruction tuning-supervised fine-tuning using instruction-response pairs-is
a foundational step in transitioning pre-trained Large Language Models (LLMs)
into helpful and safe chat assistants. Our hypothesis is that establishing an
adequate output space can enable such a transition given the capabilities
inherent in pre-trained LLMs. To verify this, we propose Response Tuning (RT),
which eliminates the instruction-conditioning step in instruction tuning and
solely focuses on response space supervision. Our experiments demonstrate that
RT models, trained only using responses, can effectively respond to a wide
range of instructions and exhibit helpfulness comparable to that of their
instruction-tuned counterparts. Furthermore, we observe that controlling the
training response distribution can significantly improve their user preference
or elicit target behaviors such as refusing assistance for unsafe queries. Our
findings illuminate the role of establishing an adequate output space in
alignment, highlighting the potential of the extensive inherent capabilities of
pre-trained LLMs.Summary
AI-Generated Summary