Diffusion-Sharpening: Ajuste Fino de Modelos de Difusão com Nitidez de Trajetória de Remoção de Ruído
Diffusion-Sharpening: Fine-tuning Diffusion Models with Denoising Trajectory Sharpening
February 17, 2025
Autores: Ye Tian, Ling Yang, Xinchen Zhang, Yunhai Tong, Mengdi Wang, Bin Cui
cs.AI
Resumo
Propomos o Diffusion-Sharpening, uma abordagem de ajuste fino que melhora o alinhamento em tarefas subsequentes ao otimizar trajetórias de amostragem. Os métodos existentes de ajuste fino baseados em Aprendizado por Reforço (RL) focam em etapas únicas de treinamento e negligenciam o alinhamento em nível de trajetória, enquanto métodos recentes de otimização de trajetórias de amostragem incorrem em custos significativos de NFE (Número de Avaliações de Função) durante a inferência. O Diffusion-Sharpening supera isso ao utilizar um framework de integral de caminho para selecionar trajetórias ótimas durante o treinamento, aproveitando feedback de recompensa e amortizando os custos de inferência. Nosso método demonstra eficiência superior no treinamento com convergência mais rápida e melhor eficiência na inferência, sem exigir NFEs adicionais. Experimentos extensivos mostram que o Diffusion-Sharpening supera métodos de ajuste fino baseados em RL (por exemplo, Diffusion-DPO) e métodos de otimização de trajetórias de amostragem (por exemplo, Inference Scaling) em diversas métricas, incluindo alinhamento de texto, capacidades composicionais e preferências humanas, oferecendo uma solução escalável e eficiente para o ajuste fino futuro de modelos de difusão. Código: https://github.com/Gen-Verse/Diffusion-Sharpening
English
We propose Diffusion-Sharpening, a fine-tuning approach that enhances
downstream alignment by optimizing sampling trajectories. Existing RL-based
fine-tuning methods focus on single training timesteps and neglect
trajectory-level alignment, while recent sampling trajectory optimization
methods incur significant inference NFE costs. Diffusion-Sharpening overcomes
this by using a path integral framework to select optimal trajectories during
training, leveraging reward feedback, and amortizing inference costs. Our
method demonstrates superior training efficiency with faster convergence, and
best inference efficiency without requiring additional NFEs. Extensive
experiments show that Diffusion-Sharpening outperforms RL-based fine-tuning
methods (e.g., Diffusion-DPO) and sampling trajectory optimization methods
(e.g., Inference Scaling) across diverse metrics including text alignment,
compositional capabilities, and human preferences, offering a scalable and
efficient solution for future diffusion model fine-tuning. Code:
https://github.com/Gen-Verse/Diffusion-SharpeningSummary
AI-Generated Summary