ChatPaper.aiChatPaper

SePPO: Optimización de Preferencia de Políticas Semis para Alineación de Difusión

SePPO: Semi-Policy Preference Optimization for Diffusion Alignment

October 7, 2024
Autores: Daoan Zhang, Guangchen Lan, Dong-Jun Han, Wenlin Yao, Xiaoman Pan, Hongming Zhang, Mingxiao Li, Pengcheng Chen, Yu Dong, Christopher Brinton, Jiebo Luo
cs.AI

Resumen

Los métodos de aprendizaje por refuerzo a partir de retroalimentación humana (RLHF) están surgiendo como una forma de ajustar los modelos de difusión (DMs) para la generación visual. Sin embargo, las estrategias comúnmente utilizadas en política son limitadas por la capacidad de generalización del modelo de recompensa, mientras que los enfoques fuera de política requieren grandes cantidades de datos emparejados anotados por humanos difíciles de obtener, especialmente en tareas de generación visual. Para abordar las limitaciones tanto de RLHF en política como fuera de política, proponemos un método de optimización de preferencias que alinea los DMs con las preferencias sin depender de modelos de recompensa o datos emparejados anotados por humanos. Específicamente, presentamos un método de Optimización de Preferencias Semi-Política (SePPO). SePPO aprovecha los puntos de control anteriores como modelos de referencia mientras los utiliza para generar muestras de referencia en política, que reemplazan las "imágenes perdedoras" en pares de preferencias. Este enfoque nos permite optimizar utilizando solo "imágenes ganadoras" fuera de política. Además, diseñamos una estrategia para la selección de modelos de referencia que amplía la exploración en el espacio de políticas. Es importante destacar que no tratamos simplemente las muestras de referencia como ejemplos negativos para el aprendizaje. En su lugar, diseñamos un criterio basado en anclas para evaluar si las muestras de referencia probablemente sean imágenes ganadoras o perdedoras, lo que permite que el modelo aprenda selectivamente de las muestras de referencia generadas. Este enfoque mitiga la degradación del rendimiento causada por la incertidumbre en la calidad de las muestras de referencia. Validamos SePPO en benchmarks tanto de texto a imagen como de texto a video. SePPO supera todos los enfoques anteriores en los benchmarks de texto a imagen y también demuestra un rendimiento sobresaliente en los benchmarks de texto a video. El código será publicado en https://github.com/DwanZhang-AI/SePPO.
English
Reinforcement learning from human feedback (RLHF) methods are emerging as a way to fine-tune diffusion models (DMs) for visual generation. However, commonly used on-policy strategies are limited by the generalization capability of the reward model, while off-policy approaches require large amounts of difficult-to-obtain paired human-annotated data, particularly in visual generation tasks. To address the limitations of both on- and off-policy RLHF, we propose a preference optimization method that aligns DMs with preferences without relying on reward models or paired human-annotated data. Specifically, we introduce a Semi-Policy Preference Optimization (SePPO) method. SePPO leverages previous checkpoints as reference models while using them to generate on-policy reference samples, which replace "losing images" in preference pairs. This approach allows us to optimize using only off-policy "winning images." Furthermore, we design a strategy for reference model selection that expands the exploration in the policy space. Notably, we do not simply treat reference samples as negative examples for learning. Instead, we design an anchor-based criterion to assess whether the reference samples are likely to be winning or losing images, allowing the model to selectively learn from the generated reference samples. This approach mitigates performance degradation caused by the uncertainty in reference sample quality. We validate SePPO across both text-to-image and text-to-video benchmarks. SePPO surpasses all previous approaches on the text-to-image benchmarks and also demonstrates outstanding performance on the text-to-video benchmarks. Code will be released in https://github.com/DwanZhang-AI/SePPO.

Summary

AI-Generated Summary

PDF52November 16, 2024