ChatPaper.aiChatPaper

CFG-Zero*: Улучшенное управление без классификатора для моделей согласования потоков

CFG-Zero*: Improved Classifier-Free Guidance for Flow Matching Models

March 24, 2025
Авторы: Weichen Fan, Amber Yijia Zheng, Raymond A. Yeh, Ziwei Liu
cs.AI

Аннотация

Classifier-Free Guidance (CFG) — это широко используемая техника в диффузионных/потоковых моделях для повышения качества изображений и управляемости. В данной работе мы сначала аналитически исследуем влияние CFG на модели потокового согласования, обученные на гауссовских смесях, где можно вывести истинный поток. Мы наблюдаем, что на ранних этапах обучения, когда оценка потока неточна, CFG направляет выборки по неправильным траекториям. На основе этого наблюдения мы предлагаем CFG-Zero*, улучшенную версию CFG с двумя ключевыми вкладами: (a) оптимизированный масштаб, где скаляр оптимизируется для коррекции неточностей в оцененной скорости, что отражено в символе * в названии; и (b) zero-init, который предполагает обнуление первых нескольких шагов решателя ОДУ. Эксперименты на задачах генерации изображений из текста (Lumina-Next, Stable Diffusion 3 и Flux) и видео из текста (Wan-2.1) демонстрируют, что CFG-Zero* стабильно превосходит CFG, подчеркивая его эффективность в управлении моделями потокового согласования. (Код доступен на github.com/WeichenFan/CFG-Zero-star)
English
Classifier-Free Guidance (CFG) is a widely adopted technique in diffusion/flow models to improve image fidelity and controllability. In this work, we first analytically study the effect of CFG on flow matching models trained on Gaussian mixtures where the ground-truth flow can be derived. We observe that in the early stages of training, when the flow estimation is inaccurate, CFG directs samples toward incorrect trajectories. Building on this observation, we propose CFG-Zero*, an improved CFG with two contributions: (a) optimized scale, where a scalar is optimized to correct for the inaccuracies in the estimated velocity, hence the * in the name; and (b) zero-init, which involves zeroing out the first few steps of the ODE solver. Experiments on both text-to-image (Lumina-Next, Stable Diffusion 3, and Flux) and text-to-video (Wan-2.1) generation demonstrate that CFG-Zero* consistently outperforms CFG, highlighting its effectiveness in guiding Flow Matching models. (Code is available at github.com/WeichenFan/CFG-Zero-star)

Summary

AI-Generated Summary

PDF212March 25, 2025