ChatPaper.aiChatPaper

Diffusions-Schärfung: Feinabstimmung von Diffusionsmodellen mit Rauschunterdrückung durch Trajektorienschärfung.

Diffusion-Sharpening: Fine-tuning Diffusion Models with Denoising Trajectory Sharpening

February 17, 2025
Autoren: Ye Tian, Ling Yang, Xinchen Zhang, Yunhai Tong, Mengdi Wang, Bin Cui
cs.AI

Zusammenfassung

Wir schlagen Diffusion-Schärfung vor, einen Feinabstimmungsansatz, der die nachgelagerte Ausrichtung verbessert, indem er die Optimierung der Probenahmetrajektorien optimiert. Bestehende RL-basierte Feinabstimmungsmethoden konzentrieren sich auf einzelne Trainingsschritte und vernachlässigen die Ausrichtung auf Trajektorienebene, während neuere Optimierungsmethoden für Probenahmetrajektorien erhebliche Inferenzkosten verursachen. Diffusion-Schärfung überwindet dies, indem es ein Pfadintegral-Framework verwendet, um optimale Trajektorien während des Trainings auszuwählen, Belohnungsfeedback nutzt und Inferenzkosten amortisiert. Unsere Methode zeigt eine überlegene Trainingseffizienz mit schnellerer Konvergenz und beste Inferenzeffizienz, ohne zusätzliche NFEs zu benötigen. Umfangreiche Experimente zeigen, dass Diffusion-Schärfung RL-basierte Feinabstimmungsmethoden (z. B. Diffusion-DPO) und Optimierungsmethoden für Probenahmetrajektorien (z. B. Inferenzskalierung) in verschiedenen Metriken wie Textausrichtung, kompositorischen Fähigkeiten und menschlichen Präferenzen übertrifft und eine skalierbare und effiziente Lösung für die zukünftige Feinabstimmung von Diffusionsmodellen bietet. Code: https://github.com/Gen-Verse/Diffusion-Schärfung
English
We propose Diffusion-Sharpening, a fine-tuning approach that enhances downstream alignment by optimizing sampling trajectories. Existing RL-based fine-tuning methods focus on single training timesteps and neglect trajectory-level alignment, while recent sampling trajectory optimization methods incur significant inference NFE costs. Diffusion-Sharpening overcomes this by using a path integral framework to select optimal trajectories during training, leveraging reward feedback, and amortizing inference costs. Our method demonstrates superior training efficiency with faster convergence, and best inference efficiency without requiring additional NFEs. Extensive experiments show that Diffusion-Sharpening outperforms RL-based fine-tuning methods (e.g., Diffusion-DPO) and sampling trajectory optimization methods (e.g., Inference Scaling) across diverse metrics including text alignment, compositional capabilities, and human preferences, offering a scalable and efficient solution for future diffusion model fine-tuning. Code: https://github.com/Gen-Verse/Diffusion-Sharpening

Summary

AI-Generated Summary

PDF163February 18, 2025