PopAlign: Diversifizierung kontrastierender Muster für eine umfassendere Ausrichtung
PopAlign: Diversifying Contrasting Patterns for a More Comprehensive Alignment
October 17, 2024
Autoren: Zekun Moore Wang, Shawn Wang, Kang Zhu, Jiaheng Liu, Ke Xu, Jie Fu, Wangchunshu Zhou, Wenhao Huang
cs.AI
Zusammenfassung
Die Ausrichtung großer Sprachmodelle (LLMs) beinhaltet das Training von Modellen anhand von Präferenz-kontrastiven Ausgabe-Paaren, um ihre Antworten gemäß menschlicher Präferenzen anzupassen. Um solche kontrastiven Paare zu erhalten, verlassen sich traditionelle Methoden wie RLHF und RLAIF auf begrenzte kontrastierende Muster, wie zum Beispiel variierende Modellvarianten oder Decodierungstemperaturen. Diese Einseitigkeit führt zu zwei Problemen: (1) Die Ausrichtung ist nicht umfassend; und dadurch (2) sind Modelle anfällig für Jailbreaking-Angriffe. Um diese Probleme anzugehen, untersuchen wir, wie man umfassendere und vielfältigere kontrastierende Muster konstruieren kann, um die Präferenzdaten zu verbessern (RQ1) und den Einfluss der Diversifizierung von kontrastierenden Mustern auf die Modellausrichtung zu überprüfen (RQ2). Für RQ1 schlagen wir PopAlign vor, ein Framework, das vielfältige kontrastierende Muster auf prompt-, Modell- und Pipeline-Ebenen integriert und sechs kontrastierende Strategien einführt, die keine zusätzlichen Feedback-Kennzeichnungsverfahren erfordern. In Bezug auf RQ2 führen wir gründliche Experimente durch, die zeigen, dass PopAlign signifikant besser abschneidet als bestehende Methoden und zu einer umfassenderen Ausrichtung führt.
English
Alignment of large language models (LLMs) involves training models on
preference-contrastive output pairs to adjust their responses according to
human preferences. To obtain such contrastive pairs, traditional methods like
RLHF and RLAIF rely on limited contrasting patterns, such as varying model
variants or decoding temperatures. This singularity leads to two issues: (1)
alignment is not comprehensive; and thereby (2) models are susceptible to
jailbreaking attacks. To address these issues, we investigate how to construct
more comprehensive and diversified contrasting patterns to enhance preference
data (RQ1) and verify the impact of the diversification of contrasting patterns
on model alignment (RQ2). For RQ1, we propose PopAlign, a framework that
integrates diversified contrasting patterns across the prompt, model, and
pipeline levels, introducing six contrasting strategies that do not require
additional feedback labeling procedures. Regarding RQ2, we conduct thorough
experiments demonstrating that PopAlign significantly outperforms existing
methods, leading to more comprehensive alignment.Summary
AI-Generated Summary