ChatPaper.aiChatPaper

Прямое согласование полной траектории диффузии с детализированными предпочтениями человека

Directly Aligning the Full Diffusion Trajectory with Fine-Grained Human Preference

September 8, 2025
Авторы: Xiangwei Shen, Zhimin Li, Zhantao Yang, Shiyi Zhang, Yingfang Zhang, Donghao Li, Chunyu Wang, Qinglin Lu, Yansong Tang
cs.AI

Аннотация

Недавние исследования продемонстрировали эффективность прямого согласования диффузионных моделей с человеческими предпочтениями с использованием дифференцируемой функции вознаграждения. Однако они сталкиваются с двумя основными проблемами: (1) они полагаются на многошаговое удаление шума с вычислением градиента для оценки вознаграждения, что требует значительных вычислительных ресурсов и ограничивает оптимизацию лишь несколькими шагами диффузии; (2) им часто требуется непрерывная оффлайн-адаптация моделей вознаграждения для достижения желаемого эстетического качества, такого как фотореализм или точные световые эффекты. Чтобы устранить ограничение многошагового удаления шума, мы предлагаем метод Direct-Align, который заранее определяет шумовой приор для эффективного восстановления исходных изображений из любых временных шагов с помощью интерполяции, используя уравнение, согласно которому состояния диффузии являются интерполяциями между шумом и целевыми изображениями. Это эффективно предотвращает избыточную оптимизацию на поздних временных шагах. Кроме того, мы представляем метод Semantic Relative Preference Optimization (SRPO), в котором вознаграждения формулируются как текстово-обусловленные сигналы. Этот подход позволяет онлайн-корректировать вознаграждения в ответ на положительные и отрицательные модификации промптов, тем самым снижая зависимость от оффлайн-тонкой настройки вознаграждения. Путем тонкой настройки модели FLUX.1.dev с оптимизированным удалением шума и онлайн-коррекцией вознаграждений мы улучшаем её реализм и эстетическое качество, оцененные людьми, более чем в 3 раза.
English
Recent studies have demonstrated the effectiveness of directly aligning diffusion models with human preferences using differentiable reward. However, they exhibit two primary challenges: (1) they rely on multistep denoising with gradient computation for reward scoring, which is computationally expensive, thus restricting optimization to only a few diffusion steps; (2) they often need continuous offline adaptation of reward models in order to achieve desired aesthetic quality, such as photorealism or precise lighting effects. To address the limitation of multistep denoising, we propose Direct-Align, a method that predefines a noise prior to effectively recover original images from any time steps via interpolation, leveraging the equation that diffusion states are interpolations between noise and target images, which effectively avoids over-optimization in late timesteps. Furthermore, we introduce Semantic Relative Preference Optimization (SRPO), in which rewards are formulated as text-conditioned signals. This approach enables online adjustment of rewards in response to positive and negative prompt augmentation, thereby reducing the reliance on offline reward fine-tuning. By fine-tuning the FLUX.1.dev model with optimized denoising and online reward adjustment, we improve its human-evaluated realism and aesthetic quality by over 3x.
PDF133September 10, 2025