CFG-Ctrl : Guidage par diffusion sans classifieur basé sur le contrôle

Résumé

La Guidance Sans Classifieur (CFG) est devenue une approche centrale pour améliorer l'alignement sémantique dans les modèles de diffusion basés sur les flux. Dans cet article, nous explorons un cadre unifié appelé CFG-Ctrl, qui réinterprète la CFG comme un contrôle appliqué au flux génératif continu du premier ordre, utilisant l'écart conditionnel-inconditionnel comme signal d'erreur pour ajuster le champ de vitesse. De ce point de vue, nous résumons la CFG standard comme un contrôleur proportionnel (contrôle P) avec un gain fixe, et les variantes typiques qui en découlent développent des conceptions de lois de contrôle étendues qui en dérivent. Cependant, les méthodes existantes reposent principalement sur un contrôle linéaire, conduisant intrinsèquement à une instabilité, un dépassement et une dégradation de la fidélité sémantique, en particulier sur de grandes échelles de guidage. Pour résoudre ce problème, nous introduisons la CFG à Mode Glissant (SMC-CFG), qui contraint le flux génératif vers une variété glissante à convergence rapide. Plus précisément, nous définissons une surface de mode glissant exponentielle sur l'erreur de prédiction sémantique et introduisons un terme de contrôle par commutation pour établir une correction non linéaire guidée par rétroaction. De plus, nous fournissons une analyse de stabilité au sens de Lyapunov pour étayer théoriquement la convergence en temps fini. Les expériences menées sur des modèles de génération texte-image, notamment Stable Diffusion 3.5, Flux et Qwen-Image, démontrent que SMC-CFG surpasse la CFG standard en termes d'alignement sémantique et améliore la robustesse sur une large plage d'échelles de guidage. Page du projet : https://hanyang-21.github.io/CFG-Ctrl

English

Classifier-Free Guidance (CFG) has emerged as a central approach for enhancing semantic alignment in flow-based diffusion models. In this paper, we explore a unified framework called CFG-Ctrl, which reinterprets CFG as a control applied to the first-order continuous-time generative flow, using the conditional-unconditional discrepancy as an error signal to adjust the velocity field. From this perspective, we summarize vanilla CFG as a proportional controller (P-control) with fixed gain, and typical follow-up variants develop extended control-law designs derived from it. However, existing methods mainly rely on linear control, inherently leading to instability, overshooting, and degraded semantic fidelity especially on large guidance scales. To address this, we introduce Sliding Mode Control CFG (SMC-CFG), which enforces the generative flow toward a rapidly convergent sliding manifold. Specifically, we define an exponential sliding mode surface over the semantic prediction error and introduce a switching control term to establish nonlinear feedback-guided correction. Moreover, we provide a Lyapunov stability analysis to theoretically support finite-time convergence. Experiments across text-to-image generation models including Stable Diffusion 3.5, Flux, and Qwen-Image demonstrate that SMC-CFG outperforms standard CFG in semantic alignment and enhances robustness across a wide range of guidance scales. Project Page: https://hanyang-21.github.io/CFG-Ctrl

CFG-Ctrl : Guidage par diffusion sans classifieur basé sur le contrôle

CFG-Ctrl: Control-Based Classifier-Free Diffusion Guidance

Résumé

Support