Direkte Ausrichtung des gesamten Diffusionspfads mit fein abgestimmten menschlichen Präferenzen
Directly Aligning the Full Diffusion Trajectory with Fine-Grained Human Preference
September 8, 2025
papers.authors: Xiangwei Shen, Zhimin Li, Zhantao Yang, Shiyi Zhang, Yingfang Zhang, Donghao Li, Chunyu Wang, Qinglin Lu, Yansong Tang
cs.AI
papers.abstract
Aktuelle Studien haben die Wirksamkeit der direkten Ausrichtung von Diffusionsmodellen an menschlichen Präferenzen mithilfe differenzierbarer Belohnungsfunktionen demonstriert. Allerdings weisen sie zwei Hauptherausforderungen auf: (1) Sie basieren auf einer mehrstufigen Entrauschung mit Gradientenberechnung für die Belohnungsbewertung, was rechenintensiv ist und somit die Optimierung auf nur wenige Diffusionsschritte beschränkt; (2) Sie benötigen oft eine kontinuierliche Offline-Anpassung von Belohnungsmodellen, um die gewünschte ästhetische Qualität, wie Fotorealismus oder präzise Lichteffekte, zu erreichen. Um die Einschränkungen der mehrstufigen Entrauschung zu überwinden, schlagen wir Direct-Align vor, eine Methode, die ein Rauschen im Voraus definiert, um Originalbilder aus beliebigen Zeitschritten effektiv durch Interpolation wiederherzustellen. Dies nutzt die Gleichung aus, dass Diffusionszustände Interpolationen zwischen Rauschen und Zielbildern sind, wodurch eine Überoptimierung in späteren Zeitschritten effektiv vermieden wird. Darüber hinaus führen wir Semantic Relative Preference Optimization (SRPO) ein, bei der Belohnungen als textbedingte Signale formuliert werden. Dieser Ansatz ermöglicht eine Online-Anpassung der Belohnungen als Reaktion auf positive und negative Prompt-Erweiterungen, wodurch die Abhängigkeit von der Offline-Feinabstimmung der Belohnungen verringert wird. Durch die Feinabstimmung des FLUX.1.dev-Modells mit optimierter Entrauschung und Online-Belohnungsanpassung verbessern wir den vom Menschen bewerteten Realismus und die ästhetische Qualität um mehr als das Dreifache.
English
Recent studies have demonstrated the effectiveness of directly aligning
diffusion models with human preferences using differentiable reward. However,
they exhibit two primary challenges: (1) they rely on multistep denoising with
gradient computation for reward scoring, which is computationally expensive,
thus restricting optimization to only a few diffusion steps; (2) they often
need continuous offline adaptation of reward models in order to achieve desired
aesthetic quality, such as photorealism or precise lighting effects. To address
the limitation of multistep denoising, we propose Direct-Align, a method that
predefines a noise prior to effectively recover original images from any time
steps via interpolation, leveraging the equation that diffusion states are
interpolations between noise and target images, which effectively avoids
over-optimization in late timesteps. Furthermore, we introduce Semantic
Relative Preference Optimization (SRPO), in which rewards are formulated as
text-conditioned signals. This approach enables online adjustment of rewards in
response to positive and negative prompt augmentation, thereby reducing the
reliance on offline reward fine-tuning. By fine-tuning the FLUX.1.dev model
with optimized denoising and online reward adjustment, we improve its
human-evaluated realism and aesthetic quality by over 3x.