Диффузионное уточнение: настройка моделей диффузии с уточнением траектории шумоподавления
Diffusion-Sharpening: Fine-tuning Diffusion Models with Denoising Trajectory Sharpening
February 17, 2025
Авторы: Ye Tian, Ling Yang, Xinchen Zhang, Yunhai Tong, Mengdi Wang, Bin Cui
cs.AI
Аннотация
Мы предлагаем метод Diffusion-Sharpening, подход к настройке fein-tuning, который улучшает выравнивание на уровне ниже путем оптимизации траекторий выборки. Существующие методы настройки fein-tuning на основе RL сосредотачиваются на одиночных временных шагах обучения и пренебрегают выравниванием на уровне траектории, в то время как недавние методы оптимизации траекторий выборки влекут значительные затраты на NFE вывода. Diffusion-Sharpening преодолевает это, используя каркас интеграла пути для выбора оптимальных траекторий во время обучения, опираясь на обратную связь по вознаграждению и амортизируя затраты вывода. Наш метод демонстрирует превосходную эффективность обучения с более быстрой сходимостью и лучшей эффективностью вывода без необходимости дополнительных NFE. Обширные эксперименты показывают, что Diffusion-Sharpening превосходит методы настройки fein-tuning на основе RL (например, Diffusion-DPO) и методы оптимизации траекторий выборки (например, Inference Scaling) по разнообразным метрикам, включая выравнивание текста, композиционные возможности и предпочтения человека, предлагая масштабируемое и эффективное решение для будущей настройки модели диффузии. Код: https://github.com/Gen-Verse/Diffusion-Sharpening
English
We propose Diffusion-Sharpening, a fine-tuning approach that enhances
downstream alignment by optimizing sampling trajectories. Existing RL-based
fine-tuning methods focus on single training timesteps and neglect
trajectory-level alignment, while recent sampling trajectory optimization
methods incur significant inference NFE costs. Diffusion-Sharpening overcomes
this by using a path integral framework to select optimal trajectories during
training, leveraging reward feedback, and amortizing inference costs. Our
method demonstrates superior training efficiency with faster convergence, and
best inference efficiency without requiring additional NFEs. Extensive
experiments show that Diffusion-Sharpening outperforms RL-based fine-tuning
methods (e.g., Diffusion-DPO) and sampling trajectory optimization methods
(e.g., Inference Scaling) across diverse metrics including text alignment,
compositional capabilities, and human preferences, offering a scalable and
efficient solution for future diffusion model fine-tuning. Code:
https://github.com/Gen-Verse/Diffusion-SharpeningSummary
AI-Generated Summary