スケーリング除去を超えた拡散モデルの推論時スケーリングInference-Time Scaling for Diffusion Models beyond Scaling Denoising
Steps
生成モデルは、データ、計算リソース、およびモデルサイズを増やすことでトレーニング中にスケーリングする能力により、さまざまな領域に大きな影響を与えています。この現象はスケーリング則によって特徴付けられます。最近の研究では、大規模言語モデル(LLMs)における推論時のスケーリング挙動を探索し始め、追加の計算によってパフォーマンスをさらに向上させる方法が明らかになっています。LLMsとは異なり、拡散モデルはノイズリダクションステップの数を調整する柔軟性を持っていますが、パフォーマンスの向上は通常、数十回のステップの後に頭打ちになります。本研究では、拡散モデルの推論時のスケーリング挙動を、ノイズリダクションステップの増加を超えて探求し、増加した計算によって生成パフォーマンスをさらに向上させる方法を調査します。具体的には、拡散サンプリングプロセスのためのより良いノイズを特定するための検索問題を考えます。我々は、フィードバックを提供する検証者と、より良いノイズ候補を見つけるために使用されるアルゴリズムという2つの軸に沿って設計空間を構築します。クラス条件付きおよびテキスト条件付きの画像生成ベンチマークでの広範な実験を通じて、我々の調査結果は、拡散モデルによって生成されたサンプルの品質が大幅に向上することを示し、画像の複雑な性質において、フレームワーク内のコンポーネントの組み合わせが異なるアプリケーションシナリオに適合するように特に選択できることを示唆しています。