Het direct uitlijnen van het volledige diffusietraject met fijnmazige menselijke voorkeuren
Directly Aligning the Full Diffusion Trajectory with Fine-Grained Human Preference
September 8, 2025
Auteurs: Xiangwei Shen, Zhimin Li, Zhantao Yang, Shiyi Zhang, Yingfang Zhang, Donghao Li, Chunyu Wang, Qinglin Lu, Yansong Tang
cs.AI
Samenvatting
Recente studies hebben de effectiviteit aangetoond van het direct afstemmen van diffusiemodellen op menselijke voorkeuren met behulp van differentieerbare beloningen. Ze vertonen echter twee primaire uitdagingen: (1) ze zijn afhankelijk van meerstaps denoising met gradientberekening voor beloningsscoring, wat rekenkundig duur is en daardoor de optimalisatie beperkt tot slechts een paar diffusiestappen; (2) ze hebben vaak continue offline aanpassing van beloningsmodellen nodig om de gewenste esthetische kwaliteit te bereiken, zoals fotorealisme of precieze lichteffecten. Om de beperking van meerstaps denoising aan te pakken, stellen we Direct-Align voor, een methode die vooraf een ruisprior definieert om originele afbeeldingen effectief te herstellen vanuit elke tijdstap via interpolatie, waarbij gebruik wordt gemaakt van de vergelijking dat diffusietoestanden interpolaties zijn tussen ruis en doelafbeeldingen, wat overoptimalisatie in latere tijdstappen effectief vermijdt. Bovendien introduceren we Semantic Relative Preference Optimization (SRPO), waarbij beloningen worden geformuleerd als tekstgeconditioneerde signalen. Deze aanpak maakt online aanpassing van beloningen mogelijk in reactie op positieve en negatieve promptaugmentatie, waardoor de afhankelijkheid van offline beloningsfine-tuning wordt verminderd. Door het FLUX.1.dev-model te fine-tunen met geoptimaliseerde denoising en online beloningsaanpassing, verbeteren we de door mensen beoordeelde realisme en esthetische kwaliteit met meer dan 3x.
English
Recent studies have demonstrated the effectiveness of directly aligning
diffusion models with human preferences using differentiable reward. However,
they exhibit two primary challenges: (1) they rely on multistep denoising with
gradient computation for reward scoring, which is computationally expensive,
thus restricting optimization to only a few diffusion steps; (2) they often
need continuous offline adaptation of reward models in order to achieve desired
aesthetic quality, such as photorealism or precise lighting effects. To address
the limitation of multistep denoising, we propose Direct-Align, a method that
predefines a noise prior to effectively recover original images from any time
steps via interpolation, leveraging the equation that diffusion states are
interpolations between noise and target images, which effectively avoids
over-optimization in late timesteps. Furthermore, we introduce Semantic
Relative Preference Optimization (SRPO), in which rewards are formulated as
text-conditioned signals. This approach enables online adjustment of rewards in
response to positive and negative prompt augmentation, thereby reducing the
reliance on offline reward fine-tuning. By fine-tuning the FLUX.1.dev model
with optimized denoising and online reward adjustment, we improve its
human-evaluated realism and aesthetic quality by over 3x.