PopAlign : Diversification des motifs contrastants pour un alignement plus complet
PopAlign: Diversifying Contrasting Patterns for a More Comprehensive Alignment
October 17, 2024
Auteurs: Zekun Moore Wang, Shawn Wang, Kang Zhu, Jiaheng Liu, Ke Xu, Jie Fu, Wangchunshu Zhou, Wenhao Huang
cs.AI
Résumé
L'alignement des grands modèles de langage (LLM) implique de former des modèles sur des paires de sortie préférentielle-contrastive pour ajuster leurs réponses selon les préférences humaines. Pour obtenir de telles paires contrastives, des méthodes traditionnelles comme RLHF et RLAIF s'appuient sur des schémas de contraste limités, tels que la variation des variantes de modèle ou des températures de décodage. Cette singularité conduit à deux problèmes : (1) l'alignement n'est pas exhaustif ; et par conséquent (2) les modèles sont susceptibles d'être victimes d'attaques de jailbreaking. Pour résoudre ces problèmes, nous étudions comment construire des schémas de contraste plus complets et diversifiés pour améliorer les données de préférence (RQ1) et vérifier l'impact de la diversification des schémas de contraste sur l'alignement des modèles (RQ2). Pour la RQ1, nous proposons PopAlign, un cadre qui intègre des schémas de contraste diversifiés à travers le prompt, le modèle et les niveaux de pipeline, introduisant six stratégies de contraste ne nécessitant pas de procédures de marquage de rétroaction supplémentaires. En ce qui concerne la RQ2, nous menons des expériences approfondies démontrant que PopAlign surpasse significativement les méthodes existantes, conduisant à un alignement plus complet.
English
Alignment of large language models (LLMs) involves training models on
preference-contrastive output pairs to adjust their responses according to
human preferences. To obtain such contrastive pairs, traditional methods like
RLHF and RLAIF rely on limited contrasting patterns, such as varying model
variants or decoding temperatures. This singularity leads to two issues: (1)
alignment is not comprehensive; and thereby (2) models are susceptible to
jailbreaking attacks. To address these issues, we investigate how to construct
more comprehensive and diversified contrasting patterns to enhance preference
data (RQ1) and verify the impact of the diversification of contrasting patterns
on model alignment (RQ2). For RQ1, we propose PopAlign, a framework that
integrates diversified contrasting patterns across the prompt, model, and
pipeline levels, introducing six contrasting strategies that do not require
additional feedback labeling procedures. Regarding RQ2, we conduct thorough
experiments demonstrating that PopAlign significantly outperforms existing
methods, leading to more comprehensive alignment.Summary
AI-Generated Summary