CFG-Ctrl: 制御ベースの分類器不要拡散ガイダンス
CFG-Ctrl: Control-Based Classifier-Free Diffusion Guidance
March 3, 2026
著者: Hanyang Wang, Yiyang Liu, Jiawei Chi, Fangfu Liu, Ran Xue, Yueqi Duan
cs.AI
要旨
Classifier-Free Guidance (CFG) は、フローベース拡散モデルにおける意味的整合性の向上を図る中心的な手法として登場した。本論文では、CFG を一次の連続時間生成フローに適用される制御則として再解釈し、条件付き-無条件の不一致を速度場を調整する誤差信号として用いる、CFG-Ctrl と名付けた統一フレームワークを探求する。この観点から、我々は従来の CFG を固定ゲインの比例制御器 (P 制御) として概括し、典型的な後続の変種はそこから派生した拡張制御則設計として発展してきたと考える。しかし、既存手法は主に線形制御に依存しており、特に大規模なガイダンススケールにおいて、不安定性、オーバーシュート、意味的忠実性の劣化を本質的に引き起こす。この問題に対処するため、我々は Sliding Mode Control CFG (SMC-CFG) を導入する。これは生成フローを急速に収束するスライディング多様体に向けて駆動するものである。具体的には、意味的予測誤差に対して指数関数的なスライディングモード面を定義し、非線形なフィードバック誘導補正を確立するためのスイッチング制御項を導入する。さらに、有限時間収束を理論的に支持するためにリアプノフ安定性解析を提供する。Stable Diffusion 3.5、Flux、Qwen-Image を含むテキストから画像への生成モデルにおける実験により、SMC-CFG が標準的な CFG を意味的整合性で上回り、広範囲のガイダンススケールにわたってロバスト性を向上させることを実証する。プロジェクトページ: https://hanyang-21.github.io/CFG-Ctrl
English
Classifier-Free Guidance (CFG) has emerged as a central approach for enhancing semantic alignment in flow-based diffusion models. In this paper, we explore a unified framework called CFG-Ctrl, which reinterprets CFG as a control applied to the first-order continuous-time generative flow, using the conditional-unconditional discrepancy as an error signal to adjust the velocity field. From this perspective, we summarize vanilla CFG as a proportional controller (P-control) with fixed gain, and typical follow-up variants develop extended control-law designs derived from it. However, existing methods mainly rely on linear control, inherently leading to instability, overshooting, and degraded semantic fidelity especially on large guidance scales. To address this, we introduce Sliding Mode Control CFG (SMC-CFG), which enforces the generative flow toward a rapidly convergent sliding manifold. Specifically, we define an exponential sliding mode surface over the semantic prediction error and introduce a switching control term to establish nonlinear feedback-guided correction. Moreover, we provide a Lyapunov stability analysis to theoretically support finite-time convergence. Experiments across text-to-image generation models including Stable Diffusion 3.5, Flux, and Qwen-Image demonstrate that SMC-CFG outperforms standard CFG in semantic alignment and enhances robustness across a wide range of guidance scales. Project Page: https://hanyang-21.github.io/CFG-Ctrl