Alinhando Diretamente a Trajetória Completa de Difusão com Preferências Humanas de Alta Granularidade
Directly Aligning the Full Diffusion Trajectory with Fine-Grained Human Preference
September 8, 2025
Autores: Xiangwei Shen, Zhimin Li, Zhantao Yang, Shiyi Zhang, Yingfang Zhang, Donghao Li, Chunyu Wang, Qinglin Lu, Yansong Tang
cs.AI
Resumo
Estudos recentes demonstraram a eficácia de alinhar diretamente modelos de difusão com preferências humanas utilizando recompensas diferenciáveis. No entanto, eles apresentam dois desafios principais: (1) dependem de desruídos em múltiplos passos com cálculo de gradiente para pontuação de recompensa, o que é computacionalmente caro, restringindo assim a otimização a apenas alguns passos de difusão; (2) frequentemente necessitam de adaptação contínua offline de modelos de recompensa para alcançar a qualidade estética desejada, como fotorealismo ou efeitos de iluminação precisos. Para abordar a limitação do desruído em múltiplos passos, propomos o Direct-Align, um método que pré-define um ruído para recuperar efetivamente as imagens originais de qualquer passo temporal via interpolação, aproveitando a equação de que os estados de difusão são interpolações entre ruído e imagens alvo, o que evita efetivamente a superotimização em passos temporais tardios. Além disso, introduzimos a Otimização de Preferência Relativa Semântica (SRPO), na qual as recompensas são formuladas como sinais condicionados por texto. Essa abordagem permite o ajuste online das recompensas em resposta a aumentos de prompts positivos e negativos, reduzindo assim a dependência de ajustes offline de recompensa. Ao ajustar o modelo FLUX.1.dev com desruído otimizado e ajuste online de recompensa, melhoramos seu realismo e qualidade estética avaliados por humanos em mais de 3 vezes.
English
Recent studies have demonstrated the effectiveness of directly aligning
diffusion models with human preferences using differentiable reward. However,
they exhibit two primary challenges: (1) they rely on multistep denoising with
gradient computation for reward scoring, which is computationally expensive,
thus restricting optimization to only a few diffusion steps; (2) they often
need continuous offline adaptation of reward models in order to achieve desired
aesthetic quality, such as photorealism or precise lighting effects. To address
the limitation of multistep denoising, we propose Direct-Align, a method that
predefines a noise prior to effectively recover original images from any time
steps via interpolation, leveraging the equation that diffusion states are
interpolations between noise and target images, which effectively avoids
over-optimization in late timesteps. Furthermore, we introduce Semantic
Relative Preference Optimization (SRPO), in which rewards are formulated as
text-conditioned signals. This approach enables online adjustment of rewards in
response to positive and negative prompt augmentation, thereby reducing the
reliance on offline reward fine-tuning. By fine-tuning the FLUX.1.dev model
with optimized denoising and online reward adjustment, we improve its
human-evaluated realism and aesthetic quality by over 3x.