PopAlign : Diversification des motifs contrastants pour un alignement plus complet

papers.abstract

L'alignement des grands modèles de langage (LLM) implique de former des modèles sur des paires de sortie préférentielle-contrastive pour ajuster leurs réponses selon les préférences humaines. Pour obtenir de telles paires contrastives, des méthodes traditionnelles comme RLHF et RLAIF s'appuient sur des schémas de contraste limités, tels que la variation des variantes de modèle ou des températures de décodage. Cette singularité conduit à deux problèmes : (1) l'alignement n'est pas exhaustif ; et par conséquent (2) les modèles sont susceptibles d'être victimes d'attaques de jailbreaking. Pour résoudre ces problèmes, nous étudions comment construire des schémas de contraste plus complets et diversifiés pour améliorer les données de préférence (RQ1) et vérifier l'impact de la diversification des schémas de contraste sur l'alignement des modèles (RQ2). Pour la RQ1, nous proposons PopAlign, un cadre qui intègre des schémas de contraste diversifiés à travers le prompt, le modèle et les niveaux de pipeline, introduisant six stratégies de contraste ne nécessitant pas de procédures de marquage de rétroaction supplémentaires. En ce qui concerne la RQ2, nous menons des expériences approfondies démontrant que PopAlign surpasse significativement les méthodes existantes, conduisant à un alignement plus complet.

English

Alignment of large language models (LLMs) involves training models on preference-contrastive output pairs to adjust their responses according to human preferences. To obtain such contrastive pairs, traditional methods like RLHF and RLAIF rely on limited contrasting patterns, such as varying model variants or decoding temperatures. This singularity leads to two issues: (1) alignment is not comprehensive; and thereby (2) models are susceptible to jailbreaking attacks. To address these issues, we investigate how to construct more comprehensive and diversified contrasting patterns to enhance preference data (RQ1) and verify the impact of the diversification of contrasting patterns on model alignment (RQ2). For RQ1, we propose PopAlign, a framework that integrates diversified contrasting patterns across the prompt, model, and pipeline levels, introducing six contrasting strategies that do not require additional feedback labeling procedures. Regarding RQ2, we conduct thorough experiments demonstrating that PopAlign significantly outperforms existing methods, leading to more comprehensive alignment.

PopAlign : Diversification des motifs contrastants pour un alignement plus complet

PopAlign: Diversifying Contrasting Patterns for a More Comprehensive Alignment

papers.abstract

Support