CFG-Ctrl: Steuerungsbasierte klassifikatorfreie Diffusionsführung

Zusammenfassung

Classifier-Free Guidance (CFG) hat sich als zentrale Methode zur Verbesserung der semantischen Ausrichtung in flussbasierten Diffusionsmodellen etabliert. In diesem Beitrag untersuchen wir einen vereinheitlichten Rahmen namens CFG-Ctrl, der CFG als eine Steuerung reinterpretiert, die auf den generativen Fluss erster Ordnung in kontinuierlicher Zeit angewendet wird. Dabei dient die Diskrepanz zwischen bedingter und unbedingter Verteilung als Fehlersignal zur Anpassung des Geschwindigkeitsfeldes. Aus dieser Perspektive fassen wir die ursprüngliche CFG als einen Proportionalregler (P-Regler) mit festem Verstärkungsfaktor zusammen, und typische Weiterentwicklungen stellen erweiterte Regelgesetze dar, die davon abgeleitet sind. Bestehende Methoden stützen sich jedoch hauptsächlich auf lineare Regelung, was inhärent zu Instabilität, Überschwingen und verminderter semantischer Treue führt, insbesondere bei hohen Guidance-Skalen. Um dies zu adressieren, führen wir Sliding Mode Control CFG (SMC-CFG) ein, die den generativen Fluss in Richtung einer schnell konvergierenden Gleitfläche zwingt. Konkret definieren wir eine exponentielle Gleitmodusfläche über dem semantischen Vorhersagefehler und führen einen Schaltregelterm ein, um eine nichtlineare, durch Feedback geführte Korrektur zu etablieren. Darüber hinaus liefern wir eine Lyapunov-Stabilitätsanalyse, um die endzeitliche Konvergenz theoretisch zu untermauern. Experimente mit Text-zu-Bild-Generierungsmodellen, darunter Stable Diffusion 3.5, Flux und Qwen-Image, zeigen, dass SMC-CFG die Standard-CFG in puncto semantischer Ausrichtung übertrifft und die Robustheit über einen weiten Bereich von Guidance-Skalen hinweg verbessert. Projektseite: https://hanyang-21.github.io/CFG-Ctrl

English

Classifier-Free Guidance (CFG) has emerged as a central approach for enhancing semantic alignment in flow-based diffusion models. In this paper, we explore a unified framework called CFG-Ctrl, which reinterprets CFG as a control applied to the first-order continuous-time generative flow, using the conditional-unconditional discrepancy as an error signal to adjust the velocity field. From this perspective, we summarize vanilla CFG as a proportional controller (P-control) with fixed gain, and typical follow-up variants develop extended control-law designs derived from it. However, existing methods mainly rely on linear control, inherently leading to instability, overshooting, and degraded semantic fidelity especially on large guidance scales. To address this, we introduce Sliding Mode Control CFG (SMC-CFG), which enforces the generative flow toward a rapidly convergent sliding manifold. Specifically, we define an exponential sliding mode surface over the semantic prediction error and introduce a switching control term to establish nonlinear feedback-guided correction. Moreover, we provide a Lyapunov stability analysis to theoretically support finite-time convergence. Experiments across text-to-image generation models including Stable Diffusion 3.5, Flux, and Qwen-Image demonstrate that SMC-CFG outperforms standard CFG in semantic alignment and enhances robustness across a wide range of guidance scales. Project Page: https://hanyang-21.github.io/CFG-Ctrl

CFG-Ctrl: Steuerungsbasierte klassifikatorfreie Diffusionsführung

CFG-Ctrl: Control-Based Classifier-Free Diffusion Guidance

Zusammenfassung

Support