ChatPaper.aiChatPaper

CFG-Zero*: Melhoria na Orientação Livre de Classificadores para Modelos de Correspondência de Fluxo

CFG-Zero*: Improved Classifier-Free Guidance for Flow Matching Models

March 24, 2025
Autores: Weichen Fan, Amber Yijia Zheng, Raymond A. Yeh, Ziwei Liu
cs.AI

Resumo

O Classifier-Free Guidance (CFG) é uma técnica amplamente adotada em modelos de difusão/fluxo para melhorar a fidelidade e a controlabilidade das imagens. Neste trabalho, primeiro estudamos analiticamente o efeito do CFG em modelos de correspondência de fluxo treinados em misturas gaussianas, onde o fluxo verdadeiro pode ser derivado. Observamos que, nos estágios iniciais do treinamento, quando a estimativa do fluxo é imprecisa, o CFG direciona as amostras para trajetórias incorretas. Com base nessa observação, propomos o CFG-Zero*, uma versão aprimorada do CFG com duas contribuições: (a) escala otimizada, onde um escalar é otimizado para corrigir as imprecisões na velocidade estimada, daí o * no nome; e (b) zero-init, que envolve zerar os primeiros passos do solucionador de EDOs. Experimentos em geração de texto para imagem (Lumina-Next, Stable Diffusion 3 e Flux) e texto para vídeo (Wan-2.1) demonstram que o CFG-Zero* supera consistentemente o CFG, destacando sua eficácia na orientação de modelos de correspondência de fluxo. (O código está disponível em github.com/WeichenFan/CFG-Zero-star)
English
Classifier-Free Guidance (CFG) is a widely adopted technique in diffusion/flow models to improve image fidelity and controllability. In this work, we first analytically study the effect of CFG on flow matching models trained on Gaussian mixtures where the ground-truth flow can be derived. We observe that in the early stages of training, when the flow estimation is inaccurate, CFG directs samples toward incorrect trajectories. Building on this observation, we propose CFG-Zero*, an improved CFG with two contributions: (a) optimized scale, where a scalar is optimized to correct for the inaccuracies in the estimated velocity, hence the * in the name; and (b) zero-init, which involves zeroing out the first few steps of the ODE solver. Experiments on both text-to-image (Lumina-Next, Stable Diffusion 3, and Flux) and text-to-video (Wan-2.1) generation demonstrate that CFG-Zero* consistently outperforms CFG, highlighting its effectiveness in guiding Flow Matching models. (Code is available at github.com/WeichenFan/CFG-Zero-star)

Summary

AI-Generated Summary

PDF212March 25, 2025