CFG-Zero*: Guía Libre de Clasificadores Mejorada para Modelos de Emparejamiento de Flujos
CFG-Zero*: Improved Classifier-Free Guidance for Flow Matching Models
March 24, 2025
Autores: Weichen Fan, Amber Yijia Zheng, Raymond A. Yeh, Ziwei Liu
cs.AI
Resumen
La Guía Libre de Clasificadores (Classifier-Free Guidance, CFG) es una técnica ampliamente adoptada en modelos de difusión/flujo para mejorar la fidelidad y controlabilidad de las imágenes. En este trabajo, primero estudiamos analíticamente el efecto de CFG en modelos de emparejamiento de flujo entrenados con mezclas gaussianas, donde el flujo verdadero puede derivarse. Observamos que, en las primeras etapas del entrenamiento, cuando la estimación del flujo es imprecisa, CFG dirige las muestras hacia trayectorias incorrectas. Basándonos en esta observación, proponemos CFG-Zero*, una versión mejorada de CFG con dos contribuciones: (a) escala optimizada, donde un escalar se optimiza para corregir las imprecisiones en la velocidad estimada, de ahí el * en el nombre; y (b) inicialización cero (zero-init), que implica anular los primeros pasos del solucionador de EDO. Los experimentos en generación de texto a imagen (Lumina-Next, Stable Diffusion 3 y Flux) y de texto a video (Wan-2.1) demuestran que CFG-Zero* supera consistentemente a CFG, destacando su efectividad en la guía de modelos de Emparejamiento de Flujo. (El código está disponible en github.com/WeichenFan/CFG-Zero-star).
English
Classifier-Free Guidance (CFG) is a widely adopted technique in
diffusion/flow models to improve image fidelity and controllability. In this
work, we first analytically study the effect of CFG on flow matching models
trained on Gaussian mixtures where the ground-truth flow can be derived. We
observe that in the early stages of training, when the flow estimation is
inaccurate, CFG directs samples toward incorrect trajectories. Building on this
observation, we propose CFG-Zero*, an improved CFG with two contributions: (a)
optimized scale, where a scalar is optimized to correct for the inaccuracies in
the estimated velocity, hence the * in the name; and (b) zero-init, which
involves zeroing out the first few steps of the ODE solver. Experiments on both
text-to-image (Lumina-Next, Stable Diffusion 3, and Flux) and text-to-video
(Wan-2.1) generation demonstrate that CFG-Zero* consistently outperforms CFG,
highlighting its effectiveness in guiding Flow Matching models. (Code is
available at github.com/WeichenFan/CFG-Zero-star)