Alineación Directa de la Trayectoria Completa de Difusión con Preferencias Humanas de Granularidad Fina
Directly Aligning the Full Diffusion Trajectory with Fine-Grained Human Preference
September 8, 2025
Autores: Xiangwei Shen, Zhimin Li, Zhantao Yang, Shiyi Zhang, Yingfang Zhang, Donghao Li, Chunyu Wang, Qinglin Lu, Yansong Tang
cs.AI
Resumen
Estudios recientes han demostrado la efectividad de alinear directamente modelos de difusión con preferencias humanas utilizando recompensas diferenciables. Sin embargo, presentan dos desafíos principales: (1) dependen de un proceso de eliminación de ruido en múltiples pasos con cálculo de gradientes para la puntuación de recompensas, lo cual es computacionalmente costoso, restringiendo así la optimización a solo unos pocos pasos de difusión; (2) a menudo requieren una adaptación continua y fuera de línea de los modelos de recompensa para lograr la calidad estética deseada, como el fotorrealismo o efectos de iluminación precisos. Para abordar la limitación de la eliminación de ruido en múltiples pasos, proponemos Direct-Align, un método que define previamente un ruido para recuperar eficazmente las imágenes originales desde cualquier paso temporal mediante interpolación, aprovechando la ecuación que establece que los estados de difusión son interpolaciones entre el ruido y las imágenes objetivo, lo que evita eficazmente la sobreoptimización en pasos temporales tardíos. Además, introducimos la Optimización de Preferencias Relativas Semánticas (SRPO, por sus siglas en inglés), en la que las recompensas se formulan como señales condicionadas por texto. Este enfoque permite el ajuste en línea de las recompensas en respuesta a la ampliación de indicaciones positivas y negativas, reduciendo así la dependencia del ajuste fino de recompensas fuera de línea. Al ajustar el modelo FLUX.1.dev con una eliminación de ruido optimizada y un ajuste de recompensas en línea, mejoramos su realismo y calidad estética evaluados por humanos en más de 3 veces.
English
Recent studies have demonstrated the effectiveness of directly aligning
diffusion models with human preferences using differentiable reward. However,
they exhibit two primary challenges: (1) they rely on multistep denoising with
gradient computation for reward scoring, which is computationally expensive,
thus restricting optimization to only a few diffusion steps; (2) they often
need continuous offline adaptation of reward models in order to achieve desired
aesthetic quality, such as photorealism or precise lighting effects. To address
the limitation of multistep denoising, we propose Direct-Align, a method that
predefines a noise prior to effectively recover original images from any time
steps via interpolation, leveraging the equation that diffusion states are
interpolations between noise and target images, which effectively avoids
over-optimization in late timesteps. Furthermore, we introduce Semantic
Relative Preference Optimization (SRPO), in which rewards are formulated as
text-conditioned signals. This approach enables online adjustment of rewards in
response to positive and negative prompt augmentation, thereby reducing the
reliance on offline reward fine-tuning. By fine-tuning the FLUX.1.dev model
with optimized denoising and online reward adjustment, we improve its
human-evaluated realism and aesthetic quality by over 3x.