Diffusion-Sharpening: Affinamento di Modelli di Diffusione con Affilatura della Traiettoria di Denoising
Diffusion-Sharpening: Fine-tuning Diffusion Models with Denoising Trajectory Sharpening
February 17, 2025
Autori: Ye Tian, Ling Yang, Xinchen Zhang, Yunhai Tong, Mengdi Wang, Bin Cui
cs.AI
Abstract
Proponiamo Diffusion-Sharpening, un approccio di fine-tuning che migliora l'allineamento a valle ottimizzando le traiettorie di campionamento. I metodi di fine-tuning basati su RL esistenti si concentrano su singoli passi temporali di addestramento e trascurano l'allineamento a livello di traiettoria, mentre i recenti metodi di ottimizzazione delle traiettorie di campionamento comportano costi significativi di NFE (Number of Function Evaluations) durante l'inferenza. Diffusion-Sharpening supera queste limitazioni utilizzando un framework di integrale di percorso per selezionare traiettorie ottimali durante l'addestramento, sfruttando il feedback di ricompensa e ammortizzando i costi di inferenza. Il nostro metodo dimostra una superiore efficienza di addestramento con una convergenza più rapida e la migliore efficienza di inferenza senza richiedere NFE aggiuntivi. Esperimenti estesi mostrano che Diffusion-Sharpening supera i metodi di fine-tuning basati su RL (ad esempio, Diffusion-DPO) e i metodi di ottimizzazione delle traiettorie di campionamento (ad esempio, Inference Scaling) in diverse metriche, tra cui l'allineamento del testo, le capacità compositive e le preferenze umane, offrendo una soluzione scalabile ed efficiente per il futuro fine-tuning dei modelli di diffusione. Codice: https://github.com/Gen-Verse/Diffusion-Sharpening
English
We propose Diffusion-Sharpening, a fine-tuning approach that enhances
downstream alignment by optimizing sampling trajectories. Existing RL-based
fine-tuning methods focus on single training timesteps and neglect
trajectory-level alignment, while recent sampling trajectory optimization
methods incur significant inference NFE costs. Diffusion-Sharpening overcomes
this by using a path integral framework to select optimal trajectories during
training, leveraging reward feedback, and amortizing inference costs. Our
method demonstrates superior training efficiency with faster convergence, and
best inference efficiency without requiring additional NFEs. Extensive
experiments show that Diffusion-Sharpening outperforms RL-based fine-tuning
methods (e.g., Diffusion-DPO) and sampling trajectory optimization methods
(e.g., Inference Scaling) across diverse metrics including text alignment,
compositional capabilities, and human preferences, offering a scalable and
efficient solution for future diffusion model fine-tuning. Code:
https://github.com/Gen-Verse/Diffusion-SharpeningSummary
AI-Generated Summary