ChatPaper.aiChatPaper

Affinage de la diffusion : Ajustement fin des modèles de diffusion avec le renforcement de la trajectoire de débruitage

Diffusion-Sharpening: Fine-tuning Diffusion Models with Denoising Trajectory Sharpening

February 17, 2025
Auteurs: Ye Tian, Ling Yang, Xinchen Zhang, Yunhai Tong, Mengdi Wang, Bin Cui
cs.AI

Résumé

Nous proposons Diffusion-Sharpening, une approche de peaufinage qui améliore l'alignement aval en optimisant les trajectoires d'échantillonnage. Les méthodes de peaufinage existantes basées sur l'apprentissage par renforcement se concentrent sur des pas de temps d'entraînement individuels et négligent l'alignement au niveau de la trajectoire, tandis que les récentes méthodes d'optimisation des trajectoires d'échantillonnage entraînent des coûts significatifs en termes d'évaluations de la fonctionnelle numérique. Diffusion-Sharpening surmonte cela en utilisant un cadre d'intégrale de chemin pour sélectionner les trajectoires optimales pendant l'entraînement, en exploitant la rétroaction de récompense et en amortissant les coûts d'évaluation. Notre méthode démontre une efficacité d'entraînement supérieure avec une convergence plus rapide, et une meilleure efficacité d'évaluation sans nécessiter d'évaluations supplémentaires de la fonctionnelle numérique. Des expériences approfondies montrent que Diffusion-Sharpening surpasse les méthodes de peaufinage basées sur l'apprentissage par renforcement (par exemple, Diffusion-DPO) et les méthodes d'optimisation des trajectoires d'échantillonnage (par exemple, Inference Scaling) sur diverses mesures, y compris l'alignement de texte, les capacités compositionnelles et les préférences humaines, offrant une solution évolutive et efficace pour le peaufinage des modèles de diffusion futurs. Code : https://github.com/Gen-Verse/Diffusion-Sharpening
English
We propose Diffusion-Sharpening, a fine-tuning approach that enhances downstream alignment by optimizing sampling trajectories. Existing RL-based fine-tuning methods focus on single training timesteps and neglect trajectory-level alignment, while recent sampling trajectory optimization methods incur significant inference NFE costs. Diffusion-Sharpening overcomes this by using a path integral framework to select optimal trajectories during training, leveraging reward feedback, and amortizing inference costs. Our method demonstrates superior training efficiency with faster convergence, and best inference efficiency without requiring additional NFEs. Extensive experiments show that Diffusion-Sharpening outperforms RL-based fine-tuning methods (e.g., Diffusion-DPO) and sampling trajectory optimization methods (e.g., Inference Scaling) across diverse metrics including text alignment, compositional capabilities, and human preferences, offering a scalable and efficient solution for future diffusion model fine-tuning. Code: https://github.com/Gen-Verse/Diffusion-Sharpening

Summary

AI-Generated Summary

PDF163February 18, 2025