CFG-Ctrl: Guida alla Diffusione senza Classificatori Basata sul Controllo

Abstract

La Classifier-Free Guidance (CFG) è emersa come un approccio centrale per migliorare l'allineamento semantico nei modelli di diffusione basati su flussi. In questo articolo, esploriamo un framework unificato chiamato CFG-Ctrl, che reinterpreta la CFG come un controllo applicato al flusso generativo continuo del primo ordine, utilizzando la discrepanza condizionale-incondizionale come segnale di errore per regolare il campo di velocità. Da questa prospettiva, sintetizziamo la CFG standard come un controllore proporzionale (controllo P) con guadagno fisso, e le varianti tipiche successive sviluppano progetti di legge di controllo estesi derivati da essa. Tuttavia, i metodi esistenti si basano principalmente sul controllo lineare, portando intrinsecamente a instabilità, overshoot e fedeltà semantica degradata, specialmente su scale di guida ampie. Per affrontare ciò, introduciamo il Controllo a Modo Scorrevole CFG (SMC-CFG), che forza il flusso generativo verso una varietà di scorrimento rapidamente convergente. Nello specifico, definiamo una superficie di modo scorrevole esponenziale sull'errore di predizione semantica e introduciamo un termine di controllo commutato per stabilire una correzione guidata da feedback non lineare. Inoltre, forniamo un'analisi di stabilità di Lyapunov per supportare teoricamente la convergenza in tempo finito. Esperimenti condotti su modelli di generazione testo-immagine, inclusi Stable Diffusion 3.5, Flux e Qwen-Image, dimostrano che SMC-CFG supera la CFG standard nell'allineamento semantico e migliora la robustezza su un'ampia gamma di scale di guida. Pagina del progetto: https://hanyang-21.github.io/CFG-Ctrl

English

Classifier-Free Guidance (CFG) has emerged as a central approach for enhancing semantic alignment in flow-based diffusion models. In this paper, we explore a unified framework called CFG-Ctrl, which reinterprets CFG as a control applied to the first-order continuous-time generative flow, using the conditional-unconditional discrepancy as an error signal to adjust the velocity field. From this perspective, we summarize vanilla CFG as a proportional controller (P-control) with fixed gain, and typical follow-up variants develop extended control-law designs derived from it. However, existing methods mainly rely on linear control, inherently leading to instability, overshooting, and degraded semantic fidelity especially on large guidance scales. To address this, we introduce Sliding Mode Control CFG (SMC-CFG), which enforces the generative flow toward a rapidly convergent sliding manifold. Specifically, we define an exponential sliding mode surface over the semantic prediction error and introduce a switching control term to establish nonlinear feedback-guided correction. Moreover, we provide a Lyapunov stability analysis to theoretically support finite-time convergence. Experiments across text-to-image generation models including Stable Diffusion 3.5, Flux, and Qwen-Image demonstrate that SMC-CFG outperforms standard CFG in semantic alignment and enhances robustness across a wide range of guidance scales. Project Page: https://hanyang-21.github.io/CFG-Ctrl

CFG-Ctrl: Guida alla Diffusione senza Classificatori Basata sul Controllo

CFG-Ctrl: Control-Based Classifier-Free Diffusion Guidance

Abstract

Support