Allineamento Diretto dell'Intera Traiettoria di Diffusione con Preferenze Umane a Grana Fine
Directly Aligning the Full Diffusion Trajectory with Fine-Grained Human Preference
September 8, 2025
Autori: Xiangwei Shen, Zhimin Li, Zhantao Yang, Shiyi Zhang, Yingfang Zhang, Donghao Li, Chunyu Wang, Qinglin Lu, Yansong Tang
cs.AI
Abstract
Studi recenti hanno dimostrato l'efficacia dell'allineamento diretto dei modelli di diffusione con le preferenze umane utilizzando ricompense differenziabili. Tuttavia, questi approcci presentano due principali sfide: (1) si basano su un processo di denoising multistep con calcolo del gradiente per la valutazione delle ricompense, che è computazionalmente costoso, limitando così l'ottimizzazione a pochi passi di diffusione; (2) spesso richiedono un adattamento offline continuo dei modelli di ricompensa per raggiungere la qualità estetica desiderata, come il fotorealismo o effetti di illuminazione precisi. Per affrontare la limitazione del denoising multistep, proponiamo Direct-Align, un metodo che predefinisce un rumore per recuperare efficacemente le immagini originali da qualsiasi passo temporale tramite interpolazione, sfruttando l'equazione secondo cui gli stati di diffusione sono interpolazioni tra rumore e immagini target, evitando così l'over-optimizzazione nei passi temporali avanzati. Inoltre, introduciamo l'ottimizzazione delle preferenze relative semantiche (Semantic Relative Preference Optimization, SRPO), in cui le ricompense sono formulate come segnali condizionati da testo. Questo approccio consente un aggiustamento online delle ricompense in risposta a un aumento positivo e negativo dei prompt, riducendo così la dipendenza dalla messa a punto offline delle ricompense. Ottimizzando il modello FLUX.1.dev con il denoising ottimizzato e l'aggiustamento online delle ricompense, abbiamo migliorato il suo realismo e qualità estetica valutati da esseri umani di oltre 3 volte.
English
Recent studies have demonstrated the effectiveness of directly aligning
diffusion models with human preferences using differentiable reward. However,
they exhibit two primary challenges: (1) they rely on multistep denoising with
gradient computation for reward scoring, which is computationally expensive,
thus restricting optimization to only a few diffusion steps; (2) they often
need continuous offline adaptation of reward models in order to achieve desired
aesthetic quality, such as photorealism or precise lighting effects. To address
the limitation of multistep denoising, we propose Direct-Align, a method that
predefines a noise prior to effectively recover original images from any time
steps via interpolation, leveraging the equation that diffusion states are
interpolations between noise and target images, which effectively avoids
over-optimization in late timesteps. Furthermore, we introduce Semantic
Relative Preference Optimization (SRPO), in which rewards are formulated as
text-conditioned signals. This approach enables online adjustment of rewards in
response to positive and negative prompt augmentation, thereby reducing the
reliance on offline reward fine-tuning. By fine-tuning the FLUX.1.dev model
with optimized denoising and online reward adjustment, we improve its
human-evaluated realism and aesthetic quality by over 3x.