CFG-Ctrl: Управление на основе контроля в генерации без классификатора с помощью диффузионных моделей

Аннотация

Метод Classifier-Free Guidance (CFG) стал ключевым подходом для улучшения семантического соответствия в потоковых диффузионных моделях. В данной статье мы исследуем унифицированный фреймворк CFG-Ctrl, который переосмысливает CFG как управление, применяемое к генеративному потоку первого порядка в непрерывном времени, используя расхождение между условным и безусловным случаями в качестве сигнала ошибки для коррекции поля скоростей. С этой точки зрения мы обобщаем классический CFG как пропорциональный регулятор (P-регулятор) с фиксированным коэффициентом усиления, а типичные последующие варианты развивают расширенные законы управления, производные от него. Однако существующие методы в основном опираются на линейное управление, что по своей природе приводит к неустойчивости, перерегулированию и снижению семантической точности, особенно при больших коэффициентах guidance. Для решения этой проблемы мы представляем CFG на основе скользящего режима (SMC-CFG), который направляет генеративный поток к быстро сходящемуся скользящему многообразию. В частности, мы определяем экспоненциальную поверхность скользящего режима на основе ошибки семантического прогноза и вводим переключающее управляющее слагаемое для создания нелинейной коррекции с обратной связью. Кроме того, мы проводим анализ устойчивости по Ляпунову для теоретического обоснования сходимости за конечное время. Эксперименты на моделях генерации изображений по тексту, включая Stable Diffusion 3.5, Flux и Qwen-Image, демонстрируют, что SMC-CFG превосходит стандартный CFG по семантическому соответствию и повышает устойчивость в широком диапазоне коэффициентов guidance. Страница проекта: https://hanyang-21.github.io/CFG-Ctrl

English

Classifier-Free Guidance (CFG) has emerged as a central approach for enhancing semantic alignment in flow-based diffusion models. In this paper, we explore a unified framework called CFG-Ctrl, which reinterprets CFG as a control applied to the first-order continuous-time generative flow, using the conditional-unconditional discrepancy as an error signal to adjust the velocity field. From this perspective, we summarize vanilla CFG as a proportional controller (P-control) with fixed gain, and typical follow-up variants develop extended control-law designs derived from it. However, existing methods mainly rely on linear control, inherently leading to instability, overshooting, and degraded semantic fidelity especially on large guidance scales. To address this, we introduce Sliding Mode Control CFG (SMC-CFG), which enforces the generative flow toward a rapidly convergent sliding manifold. Specifically, we define an exponential sliding mode surface over the semantic prediction error and introduce a switching control term to establish nonlinear feedback-guided correction. Moreover, we provide a Lyapunov stability analysis to theoretically support finite-time convergence. Experiments across text-to-image generation models including Stable Diffusion 3.5, Flux, and Qwen-Image demonstrate that SMC-CFG outperforms standard CFG in semantic alignment and enhances robustness across a wide range of guidance scales. Project Page: https://hanyang-21.github.io/CFG-Ctrl

CFG-Ctrl: Управление на основе контроля в генерации без классификатора с помощью диффузионных моделей

CFG-Ctrl: Control-Based Classifier-Free Diffusion Guidance

Аннотация

Support