Calibri: パラメータ効率の良いキャリブレーションによる拡散トランスフォーマーの強化

要旨

本論文では、拡散トランスフォーマー（DiT）が生成タスクを大幅に強化する隠れた可能性を明らかにする。ノイズ除去プロセスの詳細な分析を通じて、単一の学習済みスケーリングパラメータを導入することでDiTブロックの性能が著しく向上することを実証する。この知見に基づき、DiT構成要素を最適に較正して生成品質を高めるパラメータ効率の高い手法「Calibri」を提案する。CalibriはDiTの較正をブラックボックス報酬最適化問題として定式化し、進化アルゴリズムを用いて効率的に解決することで、約100パラメータのみを修正する。実験結果から、軽量な設計にもかかわらず、Calibriが様々なテキスト画像生成モデルで一貫して性能向上をもたらすことが明らかとなった。特にCalibriは、高品質な出力を維持しつつ、画像生成に必要な推論ステップも削減する。

English

In this paper, we uncover the hidden potential of Diffusion Transformers (DiTs) to significantly enhance generative tasks. Through an in-depth analysis of the denoising process, we demonstrate that introducing a single learned scaling parameter can significantly improve the performance of DiT blocks. Building on this insight, we propose Calibri, a parameter-efficient approach that optimally calibrates DiT components to elevate generative quality. Calibri frames DiT calibration as a black-box reward optimization problem, which is efficiently solved using an evolutionary algorithm and modifies just ~100 parameters. Experimental results reveal that despite its lightweight design, Calibri consistently improves performance across various text-to-image models. Notably, Calibri also reduces the inference steps required for image generation, all while maintaining high-quality outputs.

Calibri: パラメータ効率の良いキャリブレーションによる拡散トランスフォーマーの強化

Calibri: Enhancing Diffusion Transformers via Parameter-Efficient Calibration

要旨

Support