PopAlign: Diversificando Padrões Contrastantes para uma Alinhamento Mais Abrangente
PopAlign: Diversifying Contrasting Patterns for a More Comprehensive Alignment
October 17, 2024
Autores: Zekun Moore Wang, Shawn Wang, Kang Zhu, Jiaheng Liu, Ke Xu, Jie Fu, Wangchunshu Zhou, Wenhao Huang
cs.AI
Resumo
O alinhamento de grandes modelos de linguagem (LLMs) envolve treinar modelos em pares de saída preferência-contrastivos para ajustar suas respostas de acordo com as preferências humanas. Para obter tais pares contrastivos, métodos tradicionais como RLHF e RLAIF dependem de padrões contrastivos limitados, como variar variantes de modelo ou temperaturas de decodificação. Essa singularidade leva a dois problemas: (1) o alinhamento não é abrangente; e, portanto, (2) os modelos são susceptíveis a ataques de jailbreaking. Para lidar com esses problemas, investigamos como construir padrões contrastivos mais abrangentes e diversificados para aprimorar dados de preferência (RQ1) e verificar o impacto da diversificação de padrões contrastivos no alinhamento do modelo (RQ2). Para RQ1, propomos o PopAlign, um framework que integra padrões contrastivos diversificados nos níveis de prompt, modelo e pipeline, introduzindo seis estratégias contrastivas que não requerem procedimentos adicionais de rotulagem de feedback. Em relação a RQ2, conduzimos experimentos detalhados demonstrando que o PopAlign supera significativamente os métodos existentes, resultando em um alinhamento mais abrangente.
English
Alignment of large language models (LLMs) involves training models on
preference-contrastive output pairs to adjust their responses according to
human preferences. To obtain such contrastive pairs, traditional methods like
RLHF and RLAIF rely on limited contrasting patterns, such as varying model
variants or decoding temperatures. This singularity leads to two issues: (1)
alignment is not comprehensive; and thereby (2) models are susceptible to
jailbreaking attacks. To address these issues, we investigate how to construct
more comprehensive and diversified contrasting patterns to enhance preference
data (RQ1) and verify the impact of the diversification of contrasting patterns
on model alignment (RQ2). For RQ1, we propose PopAlign, a framework that
integrates diversified contrasting patterns across the prompt, model, and
pipeline levels, introducing six contrasting strategies that do not require
additional feedback labeling procedures. Regarding RQ2, we conduct thorough
experiments demonstrating that PopAlign significantly outperforms existing
methods, leading to more comprehensive alignment.Summary
AI-Generated Summary