보상 모델 없이 인간 피드백을 활용하여 디퓨전 모델 미세 조정하기
Using Human Feedback to Fine-tune Diffusion Models without Any Reward Model
November 22, 2023
저자: Kai Yang, Jian Tao, Jiafei Lyu, Chunjiang Ge, Jiaxin Chen, Qimai Li, Weihan Shen, Xiaolong Zhu, Xiu Li
cs.AI
초록
인간 피드백을 활용한 강화 학습(RLHF)은 확산 모델(Diffusion Model) 미세 조정에서 상당한 가능성을 보여주고 있습니다. 기존 방법들은 인간의 선호도에 부합하는 보상 모델을 먼저 학습시킨 후, 강화 학습 기법을 활용하여 기본 모델을 미세 조정합니다. 그러나 효율적인 보상 모델을 설계하려면 방대한 데이터셋, 최적의 아키텍처, 그리고 수동 하이퍼파라미터 조정이 필요하여 이 과정은 시간과 비용이 많이 소요됩니다. 대형 언어 모델 미세 조정에 효과적인 직접 선호 최적화(DPO) 방법은 보상 모델의 필요성을 제거합니다. 그러나 확산 모델의 노이즈 제거 과정에서 발생하는 GPU 메모리 요구량이 크기 때문에 DPO 방법을 직접 적용하는 데 어려움이 있습니다. 이 문제를 해결하기 위해, 우리는 확산 모델을 직접 미세 조정할 수 있는 직접 선호 노이즈 제거 확산 정책 최적화(D3PO) 방법을 제안합니다. 이론적 분석에 따르면, D3PO는 보상 모델 학습을 생략하더라도 인간 피드백 데이터를 사용하여 학습 과정을 안내하는 최적의 보상 모델로 효과적으로 기능합니다. 이 접근 방식은 보상 모델 학습이 필요 없어 더 직접적이고 비용 효율적이며, 계산 오버헤드를 최소화합니다. 실험에서 우리의 방법은 인간 선호도를 대리하는 목적 함수의 상대적 크기를 사용하여, 실제 보상을 사용하는 방법과 비슷한 결과를 제공합니다. 또한 D3PO는 이미지 왜곡률을 줄이고 더 안전한 이미지를 생성하는 능력을 보여주며, 견고한 보상 모델이 부족한 문제를 극복합니다.
English
Using reinforcement learning with human feedback (RLHF) has shown significant
promise in fine-tuning diffusion models. Previous methods start by training a
reward model that aligns with human preferences, then leverage RL techniques to
fine-tune the underlying models. However, crafting an efficient reward model
demands extensive datasets, optimal architecture, and manual hyperparameter
tuning, making the process both time and cost-intensive. The direct preference
optimization (DPO) method, effective in fine-tuning large language models,
eliminates the necessity for a reward model. However, the extensive GPU memory
requirement of the diffusion model's denoising process hinders the direct
application of the DPO method. To address this issue, we introduce the Direct
Preference for Denoising Diffusion Policy Optimization (D3PO) method to
directly fine-tune diffusion models. The theoretical analysis demonstrates that
although D3PO omits training a reward model, it effectively functions as the
optimal reward model trained using human feedback data to guide the learning
process. This approach requires no training of a reward model, proving to be
more direct, cost-effective, and minimizing computational overhead. In
experiments, our method uses the relative scale of objectives as a proxy for
human preference, delivering comparable results to methods using ground-truth
rewards. Moreover, D3PO demonstrates the ability to reduce image distortion
rates and generate safer images, overcoming challenges lacking robust reward
models.