CFG-Ctrl: Guía de Difusión Libre de Clasificadores Basada en Control
CFG-Ctrl: Control-Based Classifier-Free Diffusion Guidance
March 3, 2026
Autores: Hanyang Wang, Yiyang Liu, Jiawei Chi, Fangfu Liu, Ran Xue, Yueqi Duan
cs.AI
Resumen
La Guía Libre de Clasificador (CFG) ha surgido como un enfoque central para mejorar la alineación semántica en los modelos de difusión basados en flujos. En este artículo, exploramos un marco unificado llamado CFG-Ctrl, que reinterpreta CFG como un control aplicado al flujo generativo continuo de primer orden, utilizando la discrepancia condicional-incondicional como una señal de error para ajustar el campo de velocidad. Desde esta perspectiva, resumimos la CFG estándar como un controlador proporcional (control-P) con ganancia fija, y las variantes típicas posteriores desarrollan diseños de leyes de control extendidas derivadas de ella. Sin embargo, los métodos existentes se basan principalmente en control lineal, lo que conduce inherentemente a inestabilidad, sobreimpulso y degradación de la fidelidad semántica, especialmente en escalas de guía grandes. Para abordar esto, introducimos CFG con Control por Modos Deslizantes (SMC-CFG), que fuerza al flujo generativo hacia una variedad deslizante de convergencia rápida. Específicamente, definimos una superficie de modo deslizante exponencial sobre el error de predicción semántica e introducimos un término de control conmutado para establecer una corrección guiada por retroalimentación no lineal. Además, proporcionamos un análisis de estabilidad de Lyapunov para respaldar teóricamente la convergencia en tiempo finito. Los experimentos en modelos de generación de texto a imagen, incluyendo Stable Diffusion 3.5, Flux y Qwen-Image, demuestran que SMC-CFG supera a la CFG estándar en alineación semántica y mejora la robustez en un amplio rango de escalas de guía. Página del proyecto: https://hanyang-21.github.io/CFG-Ctrl
English
Classifier-Free Guidance (CFG) has emerged as a central approach for enhancing semantic alignment in flow-based diffusion models. In this paper, we explore a unified framework called CFG-Ctrl, which reinterprets CFG as a control applied to the first-order continuous-time generative flow, using the conditional-unconditional discrepancy as an error signal to adjust the velocity field. From this perspective, we summarize vanilla CFG as a proportional controller (P-control) with fixed gain, and typical follow-up variants develop extended control-law designs derived from it. However, existing methods mainly rely on linear control, inherently leading to instability, overshooting, and degraded semantic fidelity especially on large guidance scales. To address this, we introduce Sliding Mode Control CFG (SMC-CFG), which enforces the generative flow toward a rapidly convergent sliding manifold. Specifically, we define an exponential sliding mode surface over the semantic prediction error and introduce a switching control term to establish nonlinear feedback-guided correction. Moreover, we provide a Lyapunov stability analysis to theoretically support finite-time convergence. Experiments across text-to-image generation models including Stable Diffusion 3.5, Flux, and Qwen-Image demonstrate that SMC-CFG outperforms standard CFG in semantic alignment and enhances robustness across a wide range of guidance scales. Project Page: https://hanyang-21.github.io/CFG-Ctrl