ChatPaper.aiChatPaper

미세한 인간 선호도와 전체 확산 궤적을 직접 정렬하기

Directly Aligning the Full Diffusion Trajectory with Fine-Grained Human Preference

September 8, 2025
저자: Xiangwei Shen, Zhimin Li, Zhantao Yang, Shiyi Zhang, Yingfang Zhang, Donghao Li, Chunyu Wang, Qinglin Lu, Yansong Tang
cs.AI

초록

최근 연구들은 미분 가능한 보상을 사용하여 확산 모델을 인간의 선호도와 직접 정렬하는 방법의 효과성을 입증했습니다. 그러나 이러한 접근법은 두 가지 주요 문제점을 보입니다: (1) 보상 점수를 계산하기 위해 다단계 노이즈 제거와 그래디언트 계산에 의존하므로 계산 비용이 높아 최적화를 소수의 확산 단계로만 제한하고, (2) 사진 같은 현실감이나 정확한 조명 효과와 같은 원하는 미적 품질을 달성하기 위해 지속적인 오프라인 보상 모델 적응이 필요합니다. 다단계 노이즈 제거의 한계를 해결하기 위해, 우리는 Direct-Align 방법을 제안합니다. 이 방법은 미리 정의된 노이즈를 사용하여 모든 시간 단계에서 원본 이미지를 효과적으로 복구하며, 확산 상태가 노이즈와 대상 이미지 사이의 보간이라는 방정식을 활용함으로써 후기 시간 단계에서의 과도한 최적화를 효과적으로 방지합니다. 더불어, 우리는 Semantic Relative Preference Optimization(SRPO)을 도입했습니다. 이 방법에서는 보상이 텍스트 조건 신호로 공식화되며, 긍정적 및 부정적 프롬프트 증강에 대한 온라인 보상 조정을 가능하게 하여 오프라인 보상 미세 조정에 대한 의존도를 줄입니다. 최적화된 노이즈 제거와 온라인 보상 조정을 통해 FLUX.1.dev 모델을 미세 조정함으로써, 인간 평가에서의 현실감과 미적 품질을 3배 이상 향상시켰습니다.
English
Recent studies have demonstrated the effectiveness of directly aligning diffusion models with human preferences using differentiable reward. However, they exhibit two primary challenges: (1) they rely on multistep denoising with gradient computation for reward scoring, which is computationally expensive, thus restricting optimization to only a few diffusion steps; (2) they often need continuous offline adaptation of reward models in order to achieve desired aesthetic quality, such as photorealism or precise lighting effects. To address the limitation of multistep denoising, we propose Direct-Align, a method that predefines a noise prior to effectively recover original images from any time steps via interpolation, leveraging the equation that diffusion states are interpolations between noise and target images, which effectively avoids over-optimization in late timesteps. Furthermore, we introduce Semantic Relative Preference Optimization (SRPO), in which rewards are formulated as text-conditioned signals. This approach enables online adjustment of rewards in response to positive and negative prompt augmentation, thereby reducing the reliance on offline reward fine-tuning. By fine-tuning the FLUX.1.dev model with optimized denoising and online reward adjustment, we improve its human-evaluated realism and aesthetic quality by over 3x.
PDF133September 10, 2025