CFG-Zero* : Amélioration de l'orientation sans classifieur pour les modèles de correspondance de flux
CFG-Zero*: Improved Classifier-Free Guidance for Flow Matching Models
March 24, 2025
Auteurs: Weichen Fan, Amber Yijia Zheng, Raymond A. Yeh, Ziwei Liu
cs.AI
Résumé
Le Classifier-Free Guidance (CFG) est une technique largement adoptée dans les modèles de diffusion/flux pour améliorer la fidélité et la contrôlabilité des images. Dans ce travail, nous étudions d'abord analytiquement l'effet du CFG sur les modèles de correspondance de flux entraînés sur des mélanges gaussiens où le flux réel peut être dérivé. Nous observons que dans les premières étapes de l'entraînement, lorsque l'estimation du flux est imprécise, le CFG dirige les échantillons vers des trajectoires incorrectes. Sur la base de cette observation, nous proposons CFG-Zero*, une version améliorée du CFG avec deux contributions : (a) une échelle optimisée, où un scalaire est optimisé pour corriger les imprécisions dans l'estimation de la vitesse, d'où le * dans le nom ; et (b) zero-init, qui consiste à initialiser à zéro les premières étapes du solveur d'équations différentielles ordinaires (ODE). Les expériences sur la génération texte-image (Lumina-Next, Stable Diffusion 3 et Flux) et texte-vidéo (Wan-2.1) démontrent que CFG-Zero* surpasse systématiquement le CFG, mettant en évidence son efficacité pour guider les modèles de correspondance de flux. (Le code est disponible sur github.com/WeichenFan/CFG-Zero-star)
English
Classifier-Free Guidance (CFG) is a widely adopted technique in
diffusion/flow models to improve image fidelity and controllability. In this
work, we first analytically study the effect of CFG on flow matching models
trained on Gaussian mixtures where the ground-truth flow can be derived. We
observe that in the early stages of training, when the flow estimation is
inaccurate, CFG directs samples toward incorrect trajectories. Building on this
observation, we propose CFG-Zero*, an improved CFG with two contributions: (a)
optimized scale, where a scalar is optimized to correct for the inaccuracies in
the estimated velocity, hence the * in the name; and (b) zero-init, which
involves zeroing out the first few steps of the ODE solver. Experiments on both
text-to-image (Lumina-Next, Stable Diffusion 3, and Flux) and text-to-video
(Wan-2.1) generation demonstrate that CFG-Zero* consistently outperforms CFG,
highlighting its effectiveness in guiding Flow Matching models. (Code is
available at github.com/WeichenFan/CFG-Zero-star)Summary
AI-Generated Summary