PopAlign: より包括的なアライメントのための対照的なパターンの多様化
PopAlign: Diversifying Contrasting Patterns for a More Comprehensive Alignment
October 17, 2024
著者: Zekun Moore Wang, Shawn Wang, Kang Zhu, Jiaheng Liu, Ke Xu, Jie Fu, Wangchunshu Zhou, Wenhao Huang
cs.AI
要旨
大規模言語モデル(LLM)のアライメントは、人間の選好に従って応答を調整するために、モデルを選好対照的な出力ペアでトレーニングすることを含みます。このような対照的なペアを取得するために、RLHFやRLAIFなどの従来の手法は、モデルのバリアントやデコード温度の変化など、限られた対照パターンに依存しています。この単一性により、2つの問題が生じます:(1)アライメントが包括的でないこと、そしてそれにより(2)モデルがジェイルブレイキング攻撃に対して脆弱であること。これらの問題に対処するために、我々は、選好データを向上させるためにより包括的かつ多様な対照パターンを構築する方法を調査し(RQ1)、対照パターンの多様化がモデルのアライメントに与える影響を検証します(RQ2)。RQ1に関しては、我々は、追加のフィードバックラベリング手順を必要としない6つの対照戦略を導入する、プロンプト、モデル、およびパイプラインレベルで多様な対照パターンを統合するPopAlignというフレームワークを提案します。RQ2に関しては、PopAlignが既存の手法を大幅に上回り、より包括的なアライメントをもたらすことを実証する徹底的な実験を行います。
English
Alignment of large language models (LLMs) involves training models on
preference-contrastive output pairs to adjust their responses according to
human preferences. To obtain such contrastive pairs, traditional methods like
RLHF and RLAIF rely on limited contrasting patterns, such as varying model
variants or decoding temperatures. This singularity leads to two issues: (1)
alignment is not comprehensive; and thereby (2) models are susceptible to
jailbreaking attacks. To address these issues, we investigate how to construct
more comprehensive and diversified contrasting patterns to enhance preference
data (RQ1) and verify the impact of the diversification of contrasting patterns
on model alignment (RQ2). For RQ1, we propose PopAlign, a framework that
integrates diversified contrasting patterns across the prompt, model, and
pipeline levels, introducing six contrasting strategies that do not require
additional feedback labeling procedures. Regarding RQ2, we conduct thorough
experiments demonstrating that PopAlign significantly outperforms existing
methods, leading to more comprehensive alignment.Summary
AI-Generated Summary