参照なしで拡散モデルを整合させるためのマージン考慮型選好最適化
Margin-aware Preference Optimization for Aligning Diffusion Models without Reference
June 10, 2024
著者: Jiwoo Hong, Sayak Paul, Noah Lee, Kashif Rasul, James Thorne, Jongheon Jeong
cs.AI
要旨
人間の選好に基づく現代的なアライメント技術、例えばRLHFやDPOは、通常、参照モデルに対するダイバージェンス正則化を採用して、訓練の安定性を確保します。しかし、これによりアライメント中のモデルの柔軟性が制限されることが多く、特に選好データと参照モデルの間に明確な分布の不一致がある場合に顕著です。本論文では、Stable Diffusion XL(SDXL)などの最近のテキストから画像への拡散モデルのアライメントに焦点を当て、視覚モダリティの非構造的な性質により、この「参照ミスマッチ」がこれらのモデルのアライメントにおいて確かに重大な問題であることを明らかにします。例えば、特定のスタイル的側面に対する選好が容易にこのような不一致を引き起こすことがあります。この観察に基づき、我々は参照モデルに依存しない、メモリ効率の良い拡散モデル向けの新しい選好アライメント手法を提案します。これをマージン認識選好最適化(MaPO)と名付けます。MaPOは、選好された画像セットと非選好された画像セットの間の尤度マージンと、選好されたセットの尤度を同時に最大化し、一般的なスタイル的特徴と選好を同時に学習します。評価のために、SDXLから自己生成された画像ペアを含む2つの新しいペアワイズ選好データセット、Pick-StyleとPick-Safetyを導入し、参照ミスマッチの多様なシナリオをシミュレートします。我々の実験により、MaPOがPick-StyleとPick-Safetyでのアライメント、およびPick-a-Pic v2と併用した場合の一般的な選好アライメントにおいて、ベースのSDXLや他の既存の手法を大幅に上回ることが検証されました。我々のコード、モデル、データセットはhttps://mapo-t2i.github.ioで公開されています。
English
Modern alignment techniques based on human preferences, such as RLHF and DPO,
typically employ divergence regularization relative to the reference model to
ensure training stability. However, this often limits the flexibility of models
during alignment, especially when there is a clear distributional discrepancy
between the preference data and the reference model. In this paper, we focus on
the alignment of recent text-to-image diffusion models, such as Stable
Diffusion XL (SDXL), and find that this "reference mismatch" is indeed a
significant problem in aligning these models due to the unstructured nature of
visual modalities: e.g., a preference for a particular stylistic aspect can
easily induce such a discrepancy. Motivated by this observation, we propose a
novel and memory-friendly preference alignment method for diffusion models that
does not depend on any reference model, coined margin-aware preference
optimization (MaPO). MaPO jointly maximizes the likelihood margin between the
preferred and dispreferred image sets and the likelihood of the preferred sets,
simultaneously learning general stylistic features and preferences. For
evaluation, we introduce two new pairwise preference datasets, which comprise
self-generated image pairs from SDXL, Pick-Style and Pick-Safety, simulating
diverse scenarios of reference mismatch. Our experiments validate that MaPO can
significantly improve alignment on Pick-Style and Pick-Safety and general
preference alignment when used with Pick-a-Pic v2, surpassing the base SDXL and
other existing methods. Our code, models, and datasets are publicly available
via https://mapo-t2i.github.ioSummary
AI-Generated Summary