ChatPaper.aiChatPaper

PopAlign: Diversificando Padrões Contrastantes para uma Alinhamento Mais Abrangente

PopAlign: Diversifying Contrasting Patterns for a More Comprehensive Alignment

October 17, 2024
Autores: Zekun Moore Wang, Shawn Wang, Kang Zhu, Jiaheng Liu, Ke Xu, Jie Fu, Wangchunshu Zhou, Wenhao Huang
cs.AI

Resumo

O alinhamento de grandes modelos de linguagem (LLMs) envolve treinar modelos em pares de saída preferência-contrastivos para ajustar suas respostas de acordo com as preferências humanas. Para obter tais pares contrastivos, métodos tradicionais como RLHF e RLAIF dependem de padrões contrastivos limitados, como variar variantes de modelo ou temperaturas de decodificação. Essa singularidade leva a dois problemas: (1) o alinhamento não é abrangente; e, portanto, (2) os modelos são susceptíveis a ataques de jailbreaking. Para lidar com esses problemas, investigamos como construir padrões contrastivos mais abrangentes e diversificados para aprimorar dados de preferência (RQ1) e verificar o impacto da diversificação de padrões contrastivos no alinhamento do modelo (RQ2). Para RQ1, propomos o PopAlign, um framework que integra padrões contrastivos diversificados nos níveis de prompt, modelo e pipeline, introduzindo seis estratégias contrastivas que não requerem procedimentos adicionais de rotulagem de feedback. Em relação a RQ2, conduzimos experimentos detalhados demonstrando que o PopAlign supera significativamente os métodos existentes, resultando em um alinhamento mais abrangente.
English
Alignment of large language models (LLMs) involves training models on preference-contrastive output pairs to adjust their responses according to human preferences. To obtain such contrastive pairs, traditional methods like RLHF and RLAIF rely on limited contrasting patterns, such as varying model variants or decoding temperatures. This singularity leads to two issues: (1) alignment is not comprehensive; and thereby (2) models are susceptible to jailbreaking attacks. To address these issues, we investigate how to construct more comprehensive and diversified contrasting patterns to enhance preference data (RQ1) and verify the impact of the diversification of contrasting patterns on model alignment (RQ2). For RQ1, we propose PopAlign, a framework that integrates diversified contrasting patterns across the prompt, model, and pipeline levels, introducing six contrasting strategies that do not require additional feedback labeling procedures. Regarding RQ2, we conduct thorough experiments demonstrating that PopAlign significantly outperforms existing methods, leading to more comprehensive alignment.

Summary

AI-Generated Summary

PDF192November 16, 2024