Utilizando Retroalimentación Humana para Afinar Modelos de Difusión sin Necesidad de un Modelo de Recompensa
Using Human Feedback to Fine-tune Diffusion Models without Any Reward Model
November 22, 2023
Autores: Kai Yang, Jian Tao, Jiafei Lyu, Chunjiang Ge, Jiaxin Chen, Qimai Li, Weihan Shen, Xiaolong Zhu, Xiu Li
cs.AI
Resumen
El uso de aprendizaje por refuerzo con retroalimentación humana (RLHF, por sus siglas en inglés) ha mostrado un potencial significativo en el ajuste fino de modelos de difusión. Métodos anteriores comienzan entrenando un modelo de recompensa que se alinea con las preferencias humanas, para luego aprovechar técnicas de RL en el ajuste fino de los modelos subyacentes. Sin embargo, diseñar un modelo de recompensa eficiente requiere conjuntos de datos extensos, una arquitectura óptima y un ajuste manual de hiperparámetros, lo que convierte el proceso en algo intensivo tanto en tiempo como en costos. El método de optimización directa de preferencias (DPO, por sus siglas en inglés), efectivo en el ajuste fino de modelos de lenguaje grandes, elimina la necesidad de un modelo de recompensa. No obstante, el alto requerimiento de memoria GPU en el proceso de eliminación de ruido de los modelos de difusión dificulta la aplicación directa del método DPO. Para abordar este problema, presentamos el método de Optimización Directa de Preferencias para la Política de Difusión de Eliminación de Ruido (D3PO, por sus siglas en inglés), que permite ajustar directamente los modelos de difusión. El análisis teórico demuestra que, aunque D3PO omite el entrenamiento de un modelo de recompensa, funciona de manera efectiva como el modelo de recompensa óptimo entrenado con datos de retroalimentación humana para guiar el proceso de aprendizaje. Este enfoque no requiere el entrenamiento de un modelo de recompensa, resultando más directo, rentable y minimizando la sobrecarga computacional. En los experimentos, nuestro método utiliza la escala relativa de los objetivos como un proxy para las preferencias humanas, entregando resultados comparables a los métodos que emplean recompensas de referencia. Además, D3PO demuestra la capacidad de reducir las tasas de distorsión de imágenes y generar imágenes más seguras, superando los desafíos asociados a la falta de modelos de recompensa robustos.
English
Using reinforcement learning with human feedback (RLHF) has shown significant
promise in fine-tuning diffusion models. Previous methods start by training a
reward model that aligns with human preferences, then leverage RL techniques to
fine-tune the underlying models. However, crafting an efficient reward model
demands extensive datasets, optimal architecture, and manual hyperparameter
tuning, making the process both time and cost-intensive. The direct preference
optimization (DPO) method, effective in fine-tuning large language models,
eliminates the necessity for a reward model. However, the extensive GPU memory
requirement of the diffusion model's denoising process hinders the direct
application of the DPO method. To address this issue, we introduce the Direct
Preference for Denoising Diffusion Policy Optimization (D3PO) method to
directly fine-tune diffusion models. The theoretical analysis demonstrates that
although D3PO omits training a reward model, it effectively functions as the
optimal reward model trained using human feedback data to guide the learning
process. This approach requires no training of a reward model, proving to be
more direct, cost-effective, and minimizing computational overhead. In
experiments, our method uses the relative scale of objectives as a proxy for
human preference, delivering comparable results to methods using ground-truth
rewards. Moreover, D3PO demonstrates the ability to reduce image distortion
rates and generate safer images, overcoming challenges lacking robust reward
models.