拡散シャープニング:ノイズ除去軌道シャープニングを用いた拡散モデルの微調整
Diffusion-Sharpening: Fine-tuning Diffusion Models with Denoising Trajectory Sharpening
February 17, 2025
著者: Ye Tian, Ling Yang, Xinchen Zhang, Yunhai Tong, Mengdi Wang, Bin Cui
cs.AI
要旨
私たちは、サンプリング軌道を最適化することで下流の整列を向上させる微調整アプローチであるDiffusion-Sharpeningを提案します。既存の強化学習(RL)ベースの微調整方法は、単一のトレーニングタイムステップに焦点を当てており、軌道レベルの整列を無視しています。一方、最近のサンプリング軌道最適化方法は、推論NFEコストを引き起こします。Diffusion-Sharpeningは、訓練中に最適な軌道を選択するために経路積分フレームワークを使用し、報酬フィードバックを活用し、推論コストを分割します。当社の手法は、より速い収束と最適な推論効率を実証し、追加のNFEを必要とせずに優れたトレーニング効率を示します。幅広い実験により、Diffusion-SharpeningがRLベースの微調整方法(例:Diffusion-DPO)やサンプリング軌道最適化方法(例:Inference Scaling)を上回り、テキスト整列、構成能力、および人間の選好を含むさまざまなメトリクスで優れた性能を発揮し、将来の拡散モデル微調整のためのスケーラブルで効率的なソリューションを提供します。コード:https://github.com/Gen-Verse/Diffusion-Sharpening
English
We propose Diffusion-Sharpening, a fine-tuning approach that enhances
downstream alignment by optimizing sampling trajectories. Existing RL-based
fine-tuning methods focus on single training timesteps and neglect
trajectory-level alignment, while recent sampling trajectory optimization
methods incur significant inference NFE costs. Diffusion-Sharpening overcomes
this by using a path integral framework to select optimal trajectories during
training, leveraging reward feedback, and amortizing inference costs. Our
method demonstrates superior training efficiency with faster convergence, and
best inference efficiency without requiring additional NFEs. Extensive
experiments show that Diffusion-Sharpening outperforms RL-based fine-tuning
methods (e.g., Diffusion-DPO) and sampling trajectory optimization methods
(e.g., Inference Scaling) across diverse metrics including text alignment,
compositional capabilities, and human preferences, offering a scalable and
efficient solution for future diffusion model fine-tuning. Code:
https://github.com/Gen-Verse/Diffusion-SharpeningSummary
AI-Generated Summary