Difusión-Afilado: Ajuste fino de modelos de difusión con Afilado de Trayectoria de Desruido
Diffusion-Sharpening: Fine-tuning Diffusion Models with Denoising Trajectory Sharpening
February 17, 2025
Autores: Ye Tian, Ling Yang, Xinchen Zhang, Yunhai Tong, Mengdi Wang, Bin Cui
cs.AI
Resumen
Proponemos Difusión-Afilado, un enfoque de ajuste fino que mejora el alineamiento descendente optimizando las trayectorias de muestreo. Los métodos existentes de ajuste fino basados en RL se centran en pasos de entrenamiento individuales y descuidan el alineamiento a nivel de trayectoria, mientras que los métodos recientes de optimización de trayectorias de muestreo incurren en costos significativos de NFE de inferencia. Difusión-Afilado supera esto utilizando un marco de integral de trayectoria para seleccionar trayectorias óptimas durante el entrenamiento, aprovechando la retroalimentación de recompensa y amortizando los costos de inferencia. Nuestro método demuestra una eficiencia de entrenamiento superior con una convergencia más rápida, y la mejor eficiencia de inferencia sin requerir NFEs adicionales. Experimentos extensos muestran que Difusión-Afilado supera a los métodos de ajuste fino basados en RL (por ejemplo, Difusión-DPO) y a los métodos de optimización de trayectorias de muestreo (por ejemplo, Escalado de Inferencia) en diversas métricas que incluyen alineación de texto, capacidades de composición y preferencias humanas, ofreciendo una solución escalable y eficiente para futuros ajustes finos de modelos de difusión. Código: https://github.com/Gen-Verse/Diffusion-Sharpening
English
We propose Diffusion-Sharpening, a fine-tuning approach that enhances
downstream alignment by optimizing sampling trajectories. Existing RL-based
fine-tuning methods focus on single training timesteps and neglect
trajectory-level alignment, while recent sampling trajectory optimization
methods incur significant inference NFE costs. Diffusion-Sharpening overcomes
this by using a path integral framework to select optimal trajectories during
training, leveraging reward feedback, and amortizing inference costs. Our
method demonstrates superior training efficiency with faster convergence, and
best inference efficiency without requiring additional NFEs. Extensive
experiments show that Diffusion-Sharpening outperforms RL-based fine-tuning
methods (e.g., Diffusion-DPO) and sampling trajectory optimization methods
(e.g., Inference Scaling) across diverse metrics including text alignment,
compositional capabilities, and human preferences, offering a scalable and
efficient solution for future diffusion model fine-tuning. Code:
https://github.com/Gen-Verse/Diffusion-SharpeningSummary
AI-Generated Summary