CFG-Ctrl: 제어 기반 분류자 없는 확산 가이던스
CFG-Ctrl: Control-Based Classifier-Free Diffusion Guidance
March 3, 2026
저자: Hanyang Wang, Yiyang Liu, Jiawei Chi, Fangfu Liu, Ran Xue, Yueqi Duan
cs.AI
초록
Classifier-Free Guidance(CFG)는 흐름 기반 확산 모델에서 의미론적 정렬을 향상시키는 핵심 기법으로 부상했습니다. 본 논문에서는 CFG-Ctrl이라는 통합 프레임워크를 제안하며, 이를 통해 CFG를 1차 연속시간 생성 흐름에 적용되는 제어 기법으로 재해석합니다. 조건부-무조건부 불일치를 속도장을 조정하는 오류 신호로 활용하는 이 관점에서, 우리는 기본 CFG를 고정 이득을 가진 비례 제어기(P-제어)로 규정하고, 일반적인 후속 변형들은 이를 기반으로 확장된 제어 법칙 설계로 발전시켰음을 설명합니다. 그러나 기존 방법들은 주로 선형 제어에 의존하여, 특히 큰 guidance scale에서 불안정성, 오버슈트, 그리고 저하된 의미론적 충실도를 내재적으로 초래합니다. 이를 해결하기 위해 우리는 Sliding Mode Control CFG(SMC-CFG)를 도입합니다. 이는 생성 흐름을 빠르게 수렴하는 슬라이딩 다양체 쪽으로 강제합니다. 구체적으로, 의미론적 예측 오류에 대해 지수형 슬라이딩 모드 표면을 정의하고, 비선형 피드백 기반 보정을 구축하기 위한 스위칭 제어 항을 도입합니다. 더 나아가 유한 시간 내 수렴을 이론적으로 뒷받침하기 위해 Lyapunov 안정성 분석을 제공합니다. Stable Diffusion 3.5, Flux, Qwen-Image를 포함한 텍스트-이미지 생성 모델에 대한 실험 결과, SMC-CFG가 표준 CFG보다 의미론적 정렬에서 우수하고 광범위한 guidance scale에서 견고성을 향상시킴을 입증합니다. 프로젝트 페이지: https://hanyang-21.github.io/CFG-Ctrl
English
Classifier-Free Guidance (CFG) has emerged as a central approach for enhancing semantic alignment in flow-based diffusion models. In this paper, we explore a unified framework called CFG-Ctrl, which reinterprets CFG as a control applied to the first-order continuous-time generative flow, using the conditional-unconditional discrepancy as an error signal to adjust the velocity field. From this perspective, we summarize vanilla CFG as a proportional controller (P-control) with fixed gain, and typical follow-up variants develop extended control-law designs derived from it. However, existing methods mainly rely on linear control, inherently leading to instability, overshooting, and degraded semantic fidelity especially on large guidance scales. To address this, we introduce Sliding Mode Control CFG (SMC-CFG), which enforces the generative flow toward a rapidly convergent sliding manifold. Specifically, we define an exponential sliding mode surface over the semantic prediction error and introduce a switching control term to establish nonlinear feedback-guided correction. Moreover, we provide a Lyapunov stability analysis to theoretically support finite-time convergence. Experiments across text-to-image generation models including Stable Diffusion 3.5, Flux, and Qwen-Image demonstrate that SMC-CFG outperforms standard CFG in semantic alignment and enhances robustness across a wide range of guidance scales. Project Page: https://hanyang-21.github.io/CFG-Ctrl