Diffusions-Schärfung: Feinabstimmung von Diffusionsmodellen mit Rauschunterdrückung durch Trajektorienschärfung.
Diffusion-Sharpening: Fine-tuning Diffusion Models with Denoising Trajectory Sharpening
February 17, 2025
Autoren: Ye Tian, Ling Yang, Xinchen Zhang, Yunhai Tong, Mengdi Wang, Bin Cui
cs.AI
Zusammenfassung
Wir schlagen Diffusion-Schärfung vor, einen Feinabstimmungsansatz, der die nachgelagerte Ausrichtung verbessert, indem er die Optimierung der Probenahmetrajektorien optimiert. Bestehende RL-basierte Feinabstimmungsmethoden konzentrieren sich auf einzelne Trainingsschritte und vernachlässigen die Ausrichtung auf Trajektorienebene, während neuere Optimierungsmethoden für Probenahmetrajektorien erhebliche Inferenzkosten verursachen. Diffusion-Schärfung überwindet dies, indem es ein Pfadintegral-Framework verwendet, um optimale Trajektorien während des Trainings auszuwählen, Belohnungsfeedback nutzt und Inferenzkosten amortisiert. Unsere Methode zeigt eine überlegene Trainingseffizienz mit schnellerer Konvergenz und beste Inferenzeffizienz, ohne zusätzliche NFEs zu benötigen. Umfangreiche Experimente zeigen, dass Diffusion-Schärfung RL-basierte Feinabstimmungsmethoden (z. B. Diffusion-DPO) und Optimierungsmethoden für Probenahmetrajektorien (z. B. Inferenzskalierung) in verschiedenen Metriken wie Textausrichtung, kompositorischen Fähigkeiten und menschlichen Präferenzen übertrifft und eine skalierbare und effiziente Lösung für die zukünftige Feinabstimmung von Diffusionsmodellen bietet. Code: https://github.com/Gen-Verse/Diffusion-Schärfung
English
We propose Diffusion-Sharpening, a fine-tuning approach that enhances
downstream alignment by optimizing sampling trajectories. Existing RL-based
fine-tuning methods focus on single training timesteps and neglect
trajectory-level alignment, while recent sampling trajectory optimization
methods incur significant inference NFE costs. Diffusion-Sharpening overcomes
this by using a path integral framework to select optimal trajectories during
training, leveraging reward feedback, and amortizing inference costs. Our
method demonstrates superior training efficiency with faster convergence, and
best inference efficiency without requiring additional NFEs. Extensive
experiments show that Diffusion-Sharpening outperforms RL-based fine-tuning
methods (e.g., Diffusion-DPO) and sampling trajectory optimization methods
(e.g., Inference Scaling) across diverse metrics including text alignment,
compositional capabilities, and human preferences, offering a scalable and
efficient solution for future diffusion model fine-tuning. Code:
https://github.com/Gen-Verse/Diffusion-SharpeningSummary
AI-Generated Summary