ChatPaper.aiChatPaper

Diffusie-Verfijning: Het verfijnen van diffusiemodellen met het verscherpen van denoising-trajecten.

Diffusion-Sharpening: Fine-tuning Diffusion Models with Denoising Trajectory Sharpening

February 17, 2025
Auteurs: Ye Tian, Ling Yang, Xinchen Zhang, Yunhai Tong, Mengdi Wang, Bin Cui
cs.AI

Samenvatting

Wij stellen Diffusion-Sharpening voor, een fine-tuning benadering die de downstream uitlijning verbetert door het optimaliseren van bemonsteringstrajecten. Bestaande RL-gebaseerde fine-tuning methoden richten zich op enkele trainingsstappen en verwaarlozen trajectniveau uitlijning, terwijl recente optimalisatiemethoden voor bemonsteringstrajecten aanzienlijke inferentiekosten veroorzaken. Diffusion-Sharpening overwint dit door een padintegraalraamwerk te gebruiken om optimale trajecten te selecteren tijdens de training, waarbij beloningsfeedback wordt benut en inferentiekosten worden geamortiseerd. Onze methode toont superieure trainings-efficiëntie met snellere convergentie, en de beste inferentie-efficiëntie zonder extra NFE's te vereisen. Uitgebreide experimenten tonen aan dat Diffusion-Sharpening beter presteert dan op RL gebaseerde fine-tuning methoden (bijv. Diffusion-DPO) en bemonsteringstrajectoptimalisatiemethoden (bijv. Inference Scaling) over diverse metrieken, waaronder tekstuitlijning, samenstellingsmogelijkheden en menselijke voorkeuren, en biedt een schaalbare en efficiënte oplossing voor toekomstige fine-tuning van diffusiemodellen. Code: https://github.com/Gen-Verse/Diffusion-Sharpening
English
We propose Diffusion-Sharpening, a fine-tuning approach that enhances downstream alignment by optimizing sampling trajectories. Existing RL-based fine-tuning methods focus on single training timesteps and neglect trajectory-level alignment, while recent sampling trajectory optimization methods incur significant inference NFE costs. Diffusion-Sharpening overcomes this by using a path integral framework to select optimal trajectories during training, leveraging reward feedback, and amortizing inference costs. Our method demonstrates superior training efficiency with faster convergence, and best inference efficiency without requiring additional NFEs. Extensive experiments show that Diffusion-Sharpening outperforms RL-based fine-tuning methods (e.g., Diffusion-DPO) and sampling trajectory optimization methods (e.g., Inference Scaling) across diverse metrics including text alignment, compositional capabilities, and human preferences, offering a scalable and efficient solution for future diffusion model fine-tuning. Code: https://github.com/Gen-Verse/Diffusion-Sharpening

Summary

AI-Generated Summary

PDF163February 18, 2025