CFG-Ctrl: Op Regeling Gebaseerde Classifier-Free Diffusiegeleiding

Samenvatting

Classifier-Free Guidance (CFG) is naar voren gekomen als een centrale aanpak voor het verbeteren van semantische uitlijning in op stroming gebaseerde diffusiemodellen. In dit artikel onderzoeken we een uniform kader genaamd CFG-Ctrl, dat CFG herinterpreteert als een regelmechanisme toegepast op de eerstegraads continue-tijd generatieve stroom, waarbij het conditioneel-onvoorwaardelijke verschil wordt gebruikt als een foutsignaal om het snelheidsveld aan te passen. Vanuit dit perspectief vatten we de standaard-CFG samen als een proportionele regelaar (P-regelaar) met vaste versterking, en typische vervolgvarianten ontwikkelen uitgebreide ontwerpen voor regelwetten die hieruit zijn afgeleid. Bestaande methoden zijn echter voornamelijk gebaseerd op lineaire regeling, wat inherent leidt tot instabiliteit, overschrijding en verminderde semantische trouw, vooral bij grote stuurschalen. Om dit aan te pakken, introduceren we Sliding Mode Control CFG (SMC-CFG), dat de generatieve stroom dwingt naar een snel convergerend glijdend variëteit. Specifiek definiëren we een exponentieel glijdendmodusoppervlak over de semantische voorspellingsfout en introduceren we een schakelregelterm om niet-lineaire feedback-gestuurde correctie tot stand te brengen. Bovendien bieden we een Lyapunov-stabiliteitsanalyse om eindtijdconvergentie theoretisch te ondersteunen. Experimenten met tekst-naar-beeld generatiemodellen, waaronder Stable Diffusion 3.5, Flux en Qwen-Image, tonen aan dat SMC-CFG superieur presteert aan standaard-CFG in semantische uitlijning en de robuustheid verbetert over een breed scala aan stuurschalen. Projectpagina: https://hanyang-21.github.io/CFG-Ctrl

English

Classifier-Free Guidance (CFG) has emerged as a central approach for enhancing semantic alignment in flow-based diffusion models. In this paper, we explore a unified framework called CFG-Ctrl, which reinterprets CFG as a control applied to the first-order continuous-time generative flow, using the conditional-unconditional discrepancy as an error signal to adjust the velocity field. From this perspective, we summarize vanilla CFG as a proportional controller (P-control) with fixed gain, and typical follow-up variants develop extended control-law designs derived from it. However, existing methods mainly rely on linear control, inherently leading to instability, overshooting, and degraded semantic fidelity especially on large guidance scales. To address this, we introduce Sliding Mode Control CFG (SMC-CFG), which enforces the generative flow toward a rapidly convergent sliding manifold. Specifically, we define an exponential sliding mode surface over the semantic prediction error and introduce a switching control term to establish nonlinear feedback-guided correction. Moreover, we provide a Lyapunov stability analysis to theoretically support finite-time convergence. Experiments across text-to-image generation models including Stable Diffusion 3.5, Flux, and Qwen-Image demonstrate that SMC-CFG outperforms standard CFG in semantic alignment and enhances robustness across a wide range of guidance scales. Project Page: https://hanyang-21.github.io/CFG-Ctrl

CFG-Ctrl: Op Regeling Gebaseerde Classifier-Free Diffusiegeleiding

CFG-Ctrl: Control-Based Classifier-Free Diffusion Guidance

Samenvatting

Support