拡散モデルのためのトークン摂動ガイダンス
Token Perturbation Guidance for Diffusion Models
June 10, 2025
著者: Javad Rajabi, Soroush Mehraban, Seyedmorteza Sadat, Babak Taati
cs.AI
要旨
Classifier-Free Guidance (CFG) は、生成品質と入力条件との整合性を向上させるために、現代の拡散モデルにおいて不可欠な要素となっています。しかし、CFG は特定の訓練手順を必要とし、条件付き生成に限定されるという課題があります。これらの制約を解決するため、本研究では Token Perturbation Guidance (TPG) を提案します。TPG は、拡散ネットワーク内の中間トークン表現に直接摂動行列を適用する新しい手法です。TPG はノルム保存的なシャッフル操作を採用し、アーキテクチャ変更なしで生成品質を向上させる効果的かつ安定したガイダンス信号を提供します。その結果、TPG は訓練不要であり、入力条件に依存しないため、条件付き生成と無条件生成の両方に容易に適用可能です。さらに、TPG が提供するガイダンス項を分析し、そのサンプリングへの影響が既存の訓練不要ガイダンス手法と比較して CFG に近いことを示します。SDXL と Stable Diffusion 2.1 を用いた大規模な実験により、TPG は無条件生成において SDXL ベースラインに対して FID で約2倍の改善を達成し、プロンプト整合性においても CFG に匹敵する結果を示しました。これらの結果は、TPG が CFG のような利点をより広範な拡散モデルにもたらす、条件に依存しない汎用的なガイダンス手法であることを示しています。コードは https://github.com/TaatiTeam/Token-Perturbation-Guidance で公開されています。
English
Classifier-free guidance (CFG) has become an essential component of modern
diffusion models to enhance both generation quality and alignment with input
conditions. However, CFG requires specific training procedures and is limited
to conditional generation. To address these limitations, we propose Token
Perturbation Guidance (TPG), a novel method that applies perturbation matrices
directly to intermediate token representations within the diffusion network.
TPG employs a norm-preserving shuffling operation to provide effective and
stable guidance signals that improve generation quality without architectural
changes. As a result, TPG is training-free and agnostic to input conditions,
making it readily applicable to both conditional and unconditional generation.
We further analyze the guidance term provided by TPG and show that its effect
on sampling more closely resembles CFG compared to existing training-free
guidance techniques. Extensive experiments on SDXL and Stable Diffusion 2.1
show that TPG achieves nearly a 2times improvement in FID for unconditional
generation over the SDXL baseline, while closely matching CFG in prompt
alignment. These results establish TPG as a general, condition-agnostic
guidance method that brings CFG-like benefits to a broader class of diffusion
models. The code is available at
https://github.com/TaatiTeam/Token-Perturbation-Guidance