Diffusie-Verfijning: Het verfijnen van diffusiemodellen met het verscherpen van denoising-trajecten.
Diffusion-Sharpening: Fine-tuning Diffusion Models with Denoising Trajectory Sharpening
February 17, 2025
Auteurs: Ye Tian, Ling Yang, Xinchen Zhang, Yunhai Tong, Mengdi Wang, Bin Cui
cs.AI
Samenvatting
Wij stellen Diffusion-Sharpening voor, een fine-tuning benadering die de downstream uitlijning verbetert door het optimaliseren van bemonsteringstrajecten. Bestaande RL-gebaseerde fine-tuning methoden richten zich op enkele trainingsstappen en verwaarlozen trajectniveau uitlijning, terwijl recente optimalisatiemethoden voor bemonsteringstrajecten aanzienlijke inferentiekosten veroorzaken. Diffusion-Sharpening overwint dit door een padintegraalraamwerk te gebruiken om optimale trajecten te selecteren tijdens de training, waarbij beloningsfeedback wordt benut en inferentiekosten worden geamortiseerd. Onze methode toont superieure trainings-efficiëntie met snellere convergentie, en de beste inferentie-efficiëntie zonder extra NFE's te vereisen. Uitgebreide experimenten tonen aan dat Diffusion-Sharpening beter presteert dan op RL gebaseerde fine-tuning methoden (bijv. Diffusion-DPO) en bemonsteringstrajectoptimalisatiemethoden (bijv. Inference Scaling) over diverse metrieken, waaronder tekstuitlijning, samenstellingsmogelijkheden en menselijke voorkeuren, en biedt een schaalbare en efficiënte oplossing voor toekomstige fine-tuning van diffusiemodellen. Code: https://github.com/Gen-Verse/Diffusion-Sharpening
English
We propose Diffusion-Sharpening, a fine-tuning approach that enhances
downstream alignment by optimizing sampling trajectories. Existing RL-based
fine-tuning methods focus on single training timesteps and neglect
trajectory-level alignment, while recent sampling trajectory optimization
methods incur significant inference NFE costs. Diffusion-Sharpening overcomes
this by using a path integral framework to select optimal trajectories during
training, leveraging reward feedback, and amortizing inference costs. Our
method demonstrates superior training efficiency with faster convergence, and
best inference efficiency without requiring additional NFEs. Extensive
experiments show that Diffusion-Sharpening outperforms RL-based fine-tuning
methods (e.g., Diffusion-DPO) and sampling trajectory optimization methods
(e.g., Inference Scaling) across diverse metrics including text alignment,
compositional capabilities, and human preferences, offering a scalable and
efficient solution for future diffusion model fine-tuning. Code:
https://github.com/Gen-Verse/Diffusion-SharpeningSummary
AI-Generated Summary