ChatPaper.aiChatPaper

CFG-Zero*: Verbeterde Classifier-Free Guidance voor Flow Matching-modellen

CFG-Zero*: Improved Classifier-Free Guidance for Flow Matching Models

March 24, 2025
Auteurs: Weichen Fan, Amber Yijia Zheng, Raymond A. Yeh, Ziwei Liu
cs.AI

Samenvatting

Classifier-Free Guidance (CFG) is een veelgebruikte techniek in diffusie-/stroommodellen om de beeldkwaliteit en beheersbaarheid te verbeteren. In dit werk bestuderen we eerst analytisch het effect van CFG op stroommatchende modellen die getraind zijn op Gaussische mengsels, waarbij de grondwaarheid van de stroom kan worden afgeleid. We observeren dat in de vroege fasen van de training, wanneer de stroomschatting onnauwkeurig is, CFG monsters naar incorrecte trajecten leidt. Op basis van deze observatie stellen we CFG-Zero* voor, een verbeterde CFG met twee bijdragen: (a) geoptimaliseerde schaal, waarbij een scalar wordt geoptimaliseerd om de onnauwkeurigheden in de geschatte snelheid te corrigeren, vandaar de * in de naam; en (b) zero-init, waarbij de eerste paar stappen van de ODE-oplosser op nul worden gezet. Experimenten op zowel tekst-naar-beeld (Lumina-Next, Stable Diffusion 3 en Flux) als tekst-naar-video (Wan-2.1) generatie tonen aan dat CFG-Zero* consistent beter presteert dan CFG, wat de effectiviteit ervan in het begeleiden van Stroommatchende modellen benadrukt. (Code is beschikbaar op github.com/WeichenFan/CFG-Zero-star)
English
Classifier-Free Guidance (CFG) is a widely adopted technique in diffusion/flow models to improve image fidelity and controllability. In this work, we first analytically study the effect of CFG on flow matching models trained on Gaussian mixtures where the ground-truth flow can be derived. We observe that in the early stages of training, when the flow estimation is inaccurate, CFG directs samples toward incorrect trajectories. Building on this observation, we propose CFG-Zero*, an improved CFG with two contributions: (a) optimized scale, where a scalar is optimized to correct for the inaccuracies in the estimated velocity, hence the * in the name; and (b) zero-init, which involves zeroing out the first few steps of the ODE solver. Experiments on both text-to-image (Lumina-Next, Stable Diffusion 3, and Flux) and text-to-video (Wan-2.1) generation demonstrate that CFG-Zero* consistently outperforms CFG, highlighting its effectiveness in guiding Flow Matching models. (Code is available at github.com/WeichenFan/CFG-Zero-star)

Summary

AI-Generated Summary

PDF212March 25, 2025