拡散シャープニング：ノイズ除去軌道シャープニングを用いた拡散モデルの微調整

要旨

私たちは、サンプリング軌道を最適化することで下流の整列を向上させる微調整アプローチであるDiffusion-Sharpeningを提案します。既存の強化学習（RL）ベースの微調整方法は、単一のトレーニングタイムステップに焦点を当てており、軌道レベルの整列を無視しています。一方、最近のサンプリング軌道最適化方法は、推論NFEコストを引き起こします。Diffusion-Sharpeningは、訓練中に最適な軌道を選択するために経路積分フレームワークを使用し、報酬フィードバックを活用し、推論コストを分割します。当社の手法は、より速い収束と最適な推論効率を実証し、追加のNFEを必要とせずに優れたトレーニング効率を示します。幅広い実験により、Diffusion-SharpeningがRLベースの微調整方法（例：Diffusion-DPO）やサンプリング軌道最適化方法（例：Inference Scaling）を上回り、テキスト整列、構成能力、および人間の選好を含むさまざまなメトリクスで優れた性能を発揮し、将来の拡散モデル微調整のためのスケーラブルで効率的なソリューションを提供します。コード：https://github.com/Gen-Verse/Diffusion-Sharpening

English

We propose Diffusion-Sharpening, a fine-tuning approach that enhances downstream alignment by optimizing sampling trajectories. Existing RL-based fine-tuning methods focus on single training timesteps and neglect trajectory-level alignment, while recent sampling trajectory optimization methods incur significant inference NFE costs. Diffusion-Sharpening overcomes this by using a path integral framework to select optimal trajectories during training, leveraging reward feedback, and amortizing inference costs. Our method demonstrates superior training efficiency with faster convergence, and best inference efficiency without requiring additional NFEs. Extensive experiments show that Diffusion-Sharpening outperforms RL-based fine-tuning methods (e.g., Diffusion-DPO) and sampling trajectory optimization methods (e.g., Inference Scaling) across diverse metrics including text alignment, compositional capabilities, and human preferences, offering a scalable and efficient solution for future diffusion model fine-tuning. Code: https://github.com/Gen-Verse/Diffusion-Sharpening

拡散シャープニング：ノイズ除去軌道シャープニングを用いた拡散モデルの微調整

Diffusion-Sharpening: Fine-tuning Diffusion Models with Denoising Trajectory Sharpening

要旨

Support