Affinage de la diffusion : Ajustement fin des modèles de diffusion avec le renforcement de la trajectoire de débruitage
Diffusion-Sharpening: Fine-tuning Diffusion Models with Denoising Trajectory Sharpening
February 17, 2025
Auteurs: Ye Tian, Ling Yang, Xinchen Zhang, Yunhai Tong, Mengdi Wang, Bin Cui
cs.AI
Résumé
Nous proposons Diffusion-Sharpening, une approche de peaufinage qui améliore l'alignement aval en optimisant les trajectoires d'échantillonnage. Les méthodes de peaufinage existantes basées sur l'apprentissage par renforcement se concentrent sur des pas de temps d'entraînement individuels et négligent l'alignement au niveau de la trajectoire, tandis que les récentes méthodes d'optimisation des trajectoires d'échantillonnage entraînent des coûts significatifs en termes d'évaluations de la fonctionnelle numérique. Diffusion-Sharpening surmonte cela en utilisant un cadre d'intégrale de chemin pour sélectionner les trajectoires optimales pendant l'entraînement, en exploitant la rétroaction de récompense et en amortissant les coûts d'évaluation. Notre méthode démontre une efficacité d'entraînement supérieure avec une convergence plus rapide, et une meilleure efficacité d'évaluation sans nécessiter d'évaluations supplémentaires de la fonctionnelle numérique. Des expériences approfondies montrent que Diffusion-Sharpening surpasse les méthodes de peaufinage basées sur l'apprentissage par renforcement (par exemple, Diffusion-DPO) et les méthodes d'optimisation des trajectoires d'échantillonnage (par exemple, Inference Scaling) sur diverses mesures, y compris l'alignement de texte, les capacités compositionnelles et les préférences humaines, offrant une solution évolutive et efficace pour le peaufinage des modèles de diffusion futurs. Code : https://github.com/Gen-Verse/Diffusion-Sharpening
English
We propose Diffusion-Sharpening, a fine-tuning approach that enhances
downstream alignment by optimizing sampling trajectories. Existing RL-based
fine-tuning methods focus on single training timesteps and neglect
trajectory-level alignment, while recent sampling trajectory optimization
methods incur significant inference NFE costs. Diffusion-Sharpening overcomes
this by using a path integral framework to select optimal trajectories during
training, leveraging reward feedback, and amortizing inference costs. Our
method demonstrates superior training efficiency with faster convergence, and
best inference efficiency without requiring additional NFEs. Extensive
experiments show that Diffusion-Sharpening outperforms RL-based fine-tuning
methods (e.g., Diffusion-DPO) and sampling trajectory optimization methods
(e.g., Inference Scaling) across diverse metrics including text alignment,
compositional capabilities, and human preferences, offering a scalable and
efficient solution for future diffusion model fine-tuning. Code:
https://github.com/Gen-Verse/Diffusion-SharpeningSummary
AI-Generated Summary