Utilizando Retroalimentación Humana para Afinar Modelos de Difusión sin Necesidad de un Modelo de Recompensa

Resumen

El uso de aprendizaje por refuerzo con retroalimentación humana (RLHF, por sus siglas en inglés) ha mostrado un potencial significativo en el ajuste fino de modelos de difusión. Métodos anteriores comienzan entrenando un modelo de recompensa que se alinea con las preferencias humanas, para luego aprovechar técnicas de RL en el ajuste fino de los modelos subyacentes. Sin embargo, diseñar un modelo de recompensa eficiente requiere conjuntos de datos extensos, una arquitectura óptima y un ajuste manual de hiperparámetros, lo que convierte el proceso en algo intensivo tanto en tiempo como en costos. El método de optimización directa de preferencias (DPO, por sus siglas en inglés), efectivo en el ajuste fino de modelos de lenguaje grandes, elimina la necesidad de un modelo de recompensa. No obstante, el alto requerimiento de memoria GPU en el proceso de eliminación de ruido de los modelos de difusión dificulta la aplicación directa del método DPO. Para abordar este problema, presentamos el método de Optimización Directa de Preferencias para la Política de Difusión de Eliminación de Ruido (D3PO, por sus siglas en inglés), que permite ajustar directamente los modelos de difusión. El análisis teórico demuestra que, aunque D3PO omite el entrenamiento de un modelo de recompensa, funciona de manera efectiva como el modelo de recompensa óptimo entrenado con datos de retroalimentación humana para guiar el proceso de aprendizaje. Este enfoque no requiere el entrenamiento de un modelo de recompensa, resultando más directo, rentable y minimizando la sobrecarga computacional. En los experimentos, nuestro método utiliza la escala relativa de los objetivos como un proxy para las preferencias humanas, entregando resultados comparables a los métodos que emplean recompensas de referencia. Además, D3PO demuestra la capacidad de reducir las tasas de distorsión de imágenes y generar imágenes más seguras, superando los desafíos asociados a la falta de modelos de recompensa robustos.

English

Using reinforcement learning with human feedback (RLHF) has shown significant promise in fine-tuning diffusion models. Previous methods start by training a reward model that aligns with human preferences, then leverage RL techniques to fine-tune the underlying models. However, crafting an efficient reward model demands extensive datasets, optimal architecture, and manual hyperparameter tuning, making the process both time and cost-intensive. The direct preference optimization (DPO) method, effective in fine-tuning large language models, eliminates the necessity for a reward model. However, the extensive GPU memory requirement of the diffusion model's denoising process hinders the direct application of the DPO method. To address this issue, we introduce the Direct Preference for Denoising Diffusion Policy Optimization (D3PO) method to directly fine-tune diffusion models. The theoretical analysis demonstrates that although D3PO omits training a reward model, it effectively functions as the optimal reward model trained using human feedback data to guide the learning process. This approach requires no training of a reward model, proving to be more direct, cost-effective, and minimizing computational overhead. In experiments, our method uses the relative scale of objectives as a proxy for human preference, delivering comparable results to methods using ground-truth rewards. Moreover, D3PO demonstrates the ability to reduce image distortion rates and generate safer images, overcoming challenges lacking robust reward models.

Utilizando Retroalimentación Humana para Afinar Modelos de Difusión sin Necesidad de un Modelo de Recompensa

Using Human Feedback to Fine-tune Diffusion Models without Any Reward Model

Resumen

Support