Alignement direct de la trajectoire complète de diffusion avec les préférences humaines fines
Directly Aligning the Full Diffusion Trajectory with Fine-Grained Human Preference
September 8, 2025
papers.authors: Xiangwei Shen, Zhimin Li, Zhantao Yang, Shiyi Zhang, Yingfang Zhang, Donghao Li, Chunyu Wang, Qinglin Lu, Yansong Tang
cs.AI
papers.abstract
Des études récentes ont démontré l'efficacité de l'alignement direct des modèles de diffusion avec les préférences humaines en utilisant une récompense différentiable. Cependant, elles révèlent deux défis majeurs : (1) elles s'appuient sur un débruitage multi-étapes avec calcul de gradient pour l'évaluation des récompenses, ce qui est coûteux en termes de calcul, limitant ainsi l'optimisation à seulement quelques étapes de diffusion ; (2) elles nécessitent souvent une adaptation continue hors ligne des modèles de récompense pour atteindre une qualité esthétique souhaitée, comme le photoréalisme ou des effets d'éclairage précis. Pour pallier la limitation du débruitage multi-étapes, nous proposons Direct-Align, une méthode qui prédéfinit un bruit pour récupérer efficacement les images originales à partir de n'importe quelle étape via interpolation, en exploitant l'équation selon laquelle les états de diffusion sont des interpolations entre le bruit et les images cibles, évitant ainsi une sur-optimisation dans les étapes tardives. Par ailleurs, nous introduisons l'Optimisation des Préférences Relatives Sémantiques (SRPO), dans laquelle les récompenses sont formulées comme des signaux conditionnés par le texte. Cette approche permet un ajustement en ligne des récompenses en réponse à une augmentation positive ou négative des prompts, réduisant ainsi la dépendance à un réglage hors ligne des récompenses. En affinant le modèle FLUX.1.dev avec un débruitage optimisé et un ajustement en ligne des récompenses, nous améliorons son réalisme et sa qualité esthétique évalués par des humains de plus de 3 fois.
English
Recent studies have demonstrated the effectiveness of directly aligning
diffusion models with human preferences using differentiable reward. However,
they exhibit two primary challenges: (1) they rely on multistep denoising with
gradient computation for reward scoring, which is computationally expensive,
thus restricting optimization to only a few diffusion steps; (2) they often
need continuous offline adaptation of reward models in order to achieve desired
aesthetic quality, such as photorealism or precise lighting effects. To address
the limitation of multistep denoising, we propose Direct-Align, a method that
predefines a noise prior to effectively recover original images from any time
steps via interpolation, leveraging the equation that diffusion states are
interpolations between noise and target images, which effectively avoids
over-optimization in late timesteps. Furthermore, we introduce Semantic
Relative Preference Optimization (SRPO), in which rewards are formulated as
text-conditioned signals. This approach enables online adjustment of rewards in
response to positive and negative prompt augmentation, thereby reducing the
reliance on offline reward fine-tuning. By fine-tuning the FLUX.1.dev model
with optimized denoising and online reward adjustment, we improve its
human-evaluated realism and aesthetic quality by over 3x.