ChatPaper.aiChatPaper

Диффузионное уточнение: настройка моделей диффузии с уточнением траектории шумоподавления

Diffusion-Sharpening: Fine-tuning Diffusion Models with Denoising Trajectory Sharpening

February 17, 2025
Авторы: Ye Tian, Ling Yang, Xinchen Zhang, Yunhai Tong, Mengdi Wang, Bin Cui
cs.AI

Аннотация

Мы предлагаем метод Diffusion-Sharpening, подход к настройке fein-tuning, который улучшает выравнивание на уровне ниже путем оптимизации траекторий выборки. Существующие методы настройки fein-tuning на основе RL сосредотачиваются на одиночных временных шагах обучения и пренебрегают выравниванием на уровне траектории, в то время как недавние методы оптимизации траекторий выборки влекут значительные затраты на NFE вывода. Diffusion-Sharpening преодолевает это, используя каркас интеграла пути для выбора оптимальных траекторий во время обучения, опираясь на обратную связь по вознаграждению и амортизируя затраты вывода. Наш метод демонстрирует превосходную эффективность обучения с более быстрой сходимостью и лучшей эффективностью вывода без необходимости дополнительных NFE. Обширные эксперименты показывают, что Diffusion-Sharpening превосходит методы настройки fein-tuning на основе RL (например, Diffusion-DPO) и методы оптимизации траекторий выборки (например, Inference Scaling) по разнообразным метрикам, включая выравнивание текста, композиционные возможности и предпочтения человека, предлагая масштабируемое и эффективное решение для будущей настройки модели диффузии. Код: https://github.com/Gen-Verse/Diffusion-Sharpening
English
We propose Diffusion-Sharpening, a fine-tuning approach that enhances downstream alignment by optimizing sampling trajectories. Existing RL-based fine-tuning methods focus on single training timesteps and neglect trajectory-level alignment, while recent sampling trajectory optimization methods incur significant inference NFE costs. Diffusion-Sharpening overcomes this by using a path integral framework to select optimal trajectories during training, leveraging reward feedback, and amortizing inference costs. Our method demonstrates superior training efficiency with faster convergence, and best inference efficiency without requiring additional NFEs. Extensive experiments show that Diffusion-Sharpening outperforms RL-based fine-tuning methods (e.g., Diffusion-DPO) and sampling trajectory optimization methods (e.g., Inference Scaling) across diverse metrics including text alignment, compositional capabilities, and human preferences, offering a scalable and efficient solution for future diffusion model fine-tuning. Code: https://github.com/Gen-Verse/Diffusion-Sharpening

Summary

AI-Generated Summary

PDF163February 18, 2025