CFG-Ctrl: Orientação por Difusão Livre de Classificador Baseada em Controle
CFG-Ctrl: Control-Based Classifier-Free Diffusion Guidance
March 3, 2026
Autores: Hanyang Wang, Yiyang Liu, Jiawei Chi, Fangfu Liu, Ran Xue, Yueqi Duan
cs.AI
Resumo
A Orientação Livre de Classificador (CFG) emergiu como uma abordagem central para melhorar o alinhamento semântico em modelos de difusão baseados em fluxo. Neste artigo, exploramos uma estrutura unificada chamada CFG-Ctrl, que reinterpreta a CFG como um controle aplicado ao fluxo gerativo contínuo de primeira ordem, usando a discrepância condicional-incondicional como um sinal de erro para ajustar o campo de velocidade. Desta perspectiva, resumimos a CFG padrão como um controlador proporcional (controle-P) com ganho fixo, e as variantes típicas subsequentes desenvolvem projetos de lei de controle estendidos derivados dela. No entanto, os métodos existentes dependem principalmente de controle linear, levando inerentemente a instabilidade, *overshooting* e degradação da fidelidade semântica, especialmente em escalas de orientação grandes. Para resolver isso, introduzimos o Controle CFG por Modos Deslizantes (SMC-CFG), que força o fluxo gerativo em direção a uma variedade deslizante de convergência rápida. Especificamente, definimos uma superfície de modo deslizante exponencial sobre o erro de predição semântica e introduzimos um termo de controle chaveado para estabelecer uma correção guiada por realimentação não linear. Além disso, fornecemos uma análise de estabilidade de Lyapunov para apoiar teoricamente a convergência em tempo finito. Experimentos em modelos de geração de texto para imagem, incluindo Stable Diffusion 3.5, Flux e Qwen-Image, demonstram que o SMC-CFG supera a CFG padrão no alinhamento semântico e aumenta a robustez em uma ampla gama de escalas de orientação. Página do Projeto: https://hanyang-21.github.io/CFG-Ctrl
English
Classifier-Free Guidance (CFG) has emerged as a central approach for enhancing semantic alignment in flow-based diffusion models. In this paper, we explore a unified framework called CFG-Ctrl, which reinterprets CFG as a control applied to the first-order continuous-time generative flow, using the conditional-unconditional discrepancy as an error signal to adjust the velocity field. From this perspective, we summarize vanilla CFG as a proportional controller (P-control) with fixed gain, and typical follow-up variants develop extended control-law designs derived from it. However, existing methods mainly rely on linear control, inherently leading to instability, overshooting, and degraded semantic fidelity especially on large guidance scales. To address this, we introduce Sliding Mode Control CFG (SMC-CFG), which enforces the generative flow toward a rapidly convergent sliding manifold. Specifically, we define an exponential sliding mode surface over the semantic prediction error and introduce a switching control term to establish nonlinear feedback-guided correction. Moreover, we provide a Lyapunov stability analysis to theoretically support finite-time convergence. Experiments across text-to-image generation models including Stable Diffusion 3.5, Flux, and Qwen-Image demonstrate that SMC-CFG outperforms standard CFG in semantic alignment and enhances robustness across a wide range of guidance scales. Project Page: https://hanyang-21.github.io/CFG-Ctrl