참조 없이 확산 모델을 정렬하기 위한 마진 인식 선호 최적화
Margin-aware Preference Optimization for Aligning Diffusion Models without Reference
June 10, 2024
저자: Jiwoo Hong, Sayak Paul, Noah Lee, Kashif Rasul, James Thorne, Jongheon Jeong
cs.AI
초록
인간 선호도에 기반한 현대적 정렬 기법들, 예를 들어 RLHF(Reinforcement Learning from Human Feedback)와 DPO(Direct Preference Optimization)는 일반적으로 훈련 안정성을 보장하기 위해 참조 모델과의 발산 정규화를 사용합니다. 그러나 이는 특히 선호 데이터와 참조 모델 간에 명확한 분포적 차이가 있을 때 모델의 유연성을 제한하는 경우가 많습니다. 본 논문에서는 Stable Diffusion XL(SDXL)과 같은 최신 텍스트-이미지 확산 모델의 정렬에 초점을 맞추어, 시각적 양식의 비정형적 특성으로 인해 이러한 "참조 불일치"가 실제로 이러한 모델을 정렬하는 데 있어 중요한 문제임을 발견했습니다. 예를 들어, 특정 스타일적 측면에 대한 선호는 쉽게 이러한 불일치를 유발할 수 있습니다. 이러한 관찰에 동기를 받아, 우리는 참조 모델에 의존하지 않는 새로운 메모리 친화적 선호 정렬 방법인 마진 인식 선호 최적화(Margin-aware Preference Optimization, MaPO)를 제안합니다. MaPO는 선호 이미지 집합과 비선호 이미지 집합 간의 가능성 마진을 최대화함과 동시에 선호 집합의 가능성을 최대화하여 일반적인 스타일적 특징과 선호를 동시에 학습합니다. 평가를 위해, 우리는 SDXL에서 자체 생성한 이미지 쌍으로 구성된 두 가지 새로운 쌍별 선호 데이터셋인 Pick-Style과 Pick-Safety를 소개하며, 이는 다양한 참조 불일치 시나리오를 시뮬레이션합니다. 우리의 실험은 MaPO가 Pick-Style과 Pick-Safety에서의 정렬 및 Pick-a-Pic v2와 함께 사용될 때 일반적인 선호 정렬을 크게 개선할 수 있음을 검증하며, 기본 SDXL 및 기존의 다른 방법들을 능가함을 보여줍니다. 우리의 코드, 모델, 데이터셋은 https://mapo-t2i.github.io를 통해 공개되어 있습니다.
English
Modern alignment techniques based on human preferences, such as RLHF and DPO,
typically employ divergence regularization relative to the reference model to
ensure training stability. However, this often limits the flexibility of models
during alignment, especially when there is a clear distributional discrepancy
between the preference data and the reference model. In this paper, we focus on
the alignment of recent text-to-image diffusion models, such as Stable
Diffusion XL (SDXL), and find that this "reference mismatch" is indeed a
significant problem in aligning these models due to the unstructured nature of
visual modalities: e.g., a preference for a particular stylistic aspect can
easily induce such a discrepancy. Motivated by this observation, we propose a
novel and memory-friendly preference alignment method for diffusion models that
does not depend on any reference model, coined margin-aware preference
optimization (MaPO). MaPO jointly maximizes the likelihood margin between the
preferred and dispreferred image sets and the likelihood of the preferred sets,
simultaneously learning general stylistic features and preferences. For
evaluation, we introduce two new pairwise preference datasets, which comprise
self-generated image pairs from SDXL, Pick-Style and Pick-Safety, simulating
diverse scenarios of reference mismatch. Our experiments validate that MaPO can
significantly improve alignment on Pick-Style and Pick-Safety and general
preference alignment when used with Pick-a-Pic v2, surpassing the base SDXL and
other existing methods. Our code, models, and datasets are publicly available
via https://mapo-t2i.github.ioSummary
AI-Generated Summary