PopAlign: Diversificare i Pattern Contrapposti per un Allineamento più Completo
PopAlign: Diversifying Contrasting Patterns for a More Comprehensive Alignment
October 17, 2024
Autori: Zekun Moore Wang, Shawn Wang, Kang Zhu, Jiaheng Liu, Ke Xu, Jie Fu, Wangchunshu Zhou, Wenhao Huang
cs.AI
Abstract
L'allineamento dei grandi modelli linguistici (LLM) coinvolge l'addestramento dei modelli su coppie di output preferenziali-contrastive per regolare le loro risposte in base alle preferenze umane. Per ottenere tali coppie contrastive, i metodi tradizionali come RLHF e RLAIF si basano su schemi contrastivi limitati, come varianti del modello variabili o temperature di decodifica. Questa singolarità porta a due problemi: (1) l'allineamento non è esaustivo; e quindi (2) i modelli sono suscettibili ad attacchi di jailbreaking. Per affrontare questi problemi, indaghiamo su come costruire schemi contrastivi più completi e diversificati per migliorare i dati di preferenza (RQ1) e verifichiamo l'impatto della diversificazione degli schemi contrastivi sull'allineamento del modello (RQ2). Per RQ1, proponiamo PopAlign, un framework che integra schemi contrastivi diversificati a livello di prompt, modello e pipeline, introducendo sei strategie contrastive che non richiedono procedure aggiuntive di etichettatura del feedback. Riguardo a RQ2, conduciamo esperimenti approfonditi dimostrando che PopAlign supera significativamente i metodi esistenti, portando a un allineamento più completo.
English
Alignment of large language models (LLMs) involves training models on
preference-contrastive output pairs to adjust their responses according to
human preferences. To obtain such contrastive pairs, traditional methods like
RLHF and RLAIF rely on limited contrasting patterns, such as varying model
variants or decoding temperatures. This singularity leads to two issues: (1)
alignment is not comprehensive; and thereby (2) models are susceptible to
jailbreaking attacks. To address these issues, we investigate how to construct
more comprehensive and diversified contrasting patterns to enhance preference
data (RQ1) and verify the impact of the diversification of contrasting patterns
on model alignment (RQ2). For RQ1, we propose PopAlign, a framework that
integrates diversified contrasting patterns across the prompt, model, and
pipeline levels, introducing six contrasting strategies that do not require
additional feedback labeling procedures. Regarding RQ2, we conduct thorough
experiments demonstrating that PopAlign significantly outperforms existing
methods, leading to more comprehensive alignment.Summary
AI-Generated Summary