拡散Transformerの内部ダイナミクスによる自己誘導
Guiding a Diffusion Transformer with the Internal Dynamics of Itself
December 30, 2025
著者: Xingyu Zhou, Qifan Li, Xiaobin Hu, Hai Chen, Shuhang Gu
cs.AI
要旨
拡散モデルは(条件付き)データ分布全体を捕捉する強力な能力を示す。しかしながら、低確率領域をカバーすることを学習するための十分な訓練とデータが不足しているため、モデルはこれらの領域に対応する高品質な画像を生成できないことに対してペナルティを受けることになる。より良い生成品質を達成するために、Classifier Free Guidance (CFG) のようなガイダンス戦略は、サンプリング段階においてサンプルを高確率領域へと導くことができる。しかし、標準的なCFGは往々にして過度に単純化された、あるいは歪んだサンプルを生み出す。一方、劣化版の拡散モデルを用いてガイダンスを行う別の手法は、注意深く設計された劣化戦略、追加の訓練、および余分なサンプリングステップによって制限されている。本論文では、我々はシンプルかつ効果的な戦略であるInternal Guidance (IG)を提案する。これは、訓練過程において中間層への補助的な監督を導入し、サンプリング過程において中間層および深層の出力を外挿することで生成結果を得るものである。このシンプルな戦略は、様々なベースラインにおいて、訓練効率と生成品質の両方で顕著な改善をもたらす。ImageNet 256x256において、SiT-XL/2+IGは80エポックおよび800エポックでそれぞれFID=5.31、FID=1.75を達成する。さらに印象的なことに、LightningDiT-XL/1+IGはFID=1.34を達成し、これら全ての手法間で大きな差をつけた。CFGと組み合わせることで、LightningDiT-XL/1+IGは現在のstate-of-the-artであるFID 1.19を達成する。
English
The diffusion model presents a powerful ability to capture the entire (conditional) data distribution. However, due to the lack of sufficient training and data to learn to cover low-probability areas, the model will be penalized for failing to generate high-quality images corresponding to these areas. To achieve better generation quality, guidance strategies such as classifier free guidance (CFG) can guide the samples to the high-probability areas during the sampling stage. However, the standard CFG often leads to over-simplified or distorted samples. On the other hand, the alternative line of guiding diffusion model with its bad version is limited by carefully designed degradation strategies, extra training and additional sampling steps. In this paper, we proposed a simple yet effective strategy Internal Guidance (IG), which introduces an auxiliary supervision on the intermediate layer during training process and extrapolates the intermediate and deep layer's outputs to obtain generative results during sampling process. This simple strategy yields significant improvements in both training efficiency and generation quality on various baselines. On ImageNet 256x256, SiT-XL/2+IG achieves FID=5.31 and FID=1.75 at 80 and 800 epochs. More impressively, LightningDiT-XL/1+IG achieves FID=1.34 which achieves a large margin between all of these methods. Combined with CFG, LightningDiT-XL/1+IG achieves the current state-of-the-art FID of 1.19.