CFG-Zero*: Melhoria na Orientação Livre de Classificadores para Modelos de Correspondência de Fluxo
CFG-Zero*: Improved Classifier-Free Guidance for Flow Matching Models
March 24, 2025
Autores: Weichen Fan, Amber Yijia Zheng, Raymond A. Yeh, Ziwei Liu
cs.AI
Resumo
O Classifier-Free Guidance (CFG) é uma técnica amplamente adotada em modelos de difusão/fluxo para melhorar a fidelidade e a controlabilidade das imagens. Neste trabalho, primeiro estudamos analiticamente o efeito do CFG em modelos de correspondência de fluxo treinados em misturas gaussianas, onde o fluxo verdadeiro pode ser derivado. Observamos que, nos estágios iniciais do treinamento, quando a estimativa do fluxo é imprecisa, o CFG direciona as amostras para trajetórias incorretas. Com base nessa observação, propomos o CFG-Zero*, uma versão aprimorada do CFG com duas contribuições: (a) escala otimizada, onde um escalar é otimizado para corrigir as imprecisões na velocidade estimada, daí o * no nome; e (b) zero-init, que envolve zerar os primeiros passos do solucionador de EDOs. Experimentos em geração de texto para imagem (Lumina-Next, Stable Diffusion 3 e Flux) e texto para vídeo (Wan-2.1) demonstram que o CFG-Zero* supera consistentemente o CFG, destacando sua eficácia na orientação de modelos de correspondência de fluxo. (O código está disponível em github.com/WeichenFan/CFG-Zero-star)
English
Classifier-Free Guidance (CFG) is a widely adopted technique in
diffusion/flow models to improve image fidelity and controllability. In this
work, we first analytically study the effect of CFG on flow matching models
trained on Gaussian mixtures where the ground-truth flow can be derived. We
observe that in the early stages of training, when the flow estimation is
inaccurate, CFG directs samples toward incorrect trajectories. Building on this
observation, we propose CFG-Zero*, an improved CFG with two contributions: (a)
optimized scale, where a scalar is optimized to correct for the inaccuracies in
the estimated velocity, hence the * in the name; and (b) zero-init, which
involves zeroing out the first few steps of the ODE solver. Experiments on both
text-to-image (Lumina-Next, Stable Diffusion 3, and Flux) and text-to-video
(Wan-2.1) generation demonstrate that CFG-Zero* consistently outperforms CFG,
highlighting its effectiveness in guiding Flow Matching models. (Code is
available at github.com/WeichenFan/CFG-Zero-star)Summary
AI-Generated Summary