Generazione Visuale Senza Guida

Abstract

La Guida Senza Classificatore (CFG) è stata una tecnica predefinita in vari modelli generativi visivi, ma richiede inferenza da modelli condizionali e incondizionati durante il campionamento. Proponiamo di costruire modelli visivi liberi dal campionamento guidato. L'algoritmo risultante, Addestramento Senza Guida (GFT), eguaglia le prestazioni di CFG riducendo il campionamento a un singolo modello, dimezzando il costo computazionale. A differenza degli approcci basati sulla distillazione che dipendono da reti CFG preaddestrate, GFT consente l'addestramento diretto da zero. GFT è semplice da implementare. Conserva lo stesso obiettivo di massima verosimiglianza di CFG e differisce principalmente nella parametrizzazione dei modelli condizionali. L'implementazione di GFT richiede solo modifiche minime ai codici esistenti, poiché la maggior parte delle scelte progettuali e degli iperparametri sono ereditati direttamente da CFG. I nostri ampi esperimenti su cinque modelli visivi distinti dimostrano l'efficacia e la versatilità di GFT. Attraverso i domini della diffusione, dell'autoregressione e della modellazione a predizione mascherata, GFT raggiunge costantemente punteggi FID comparabili o addirittura inferiori, con compromessi simili tra diversità e fedeltà rispetto alle basi di CFG, il tutto senza guida. Il codice sarà disponibile su https://github.com/thu-ml/GFT.

English

Classifier-Free Guidance (CFG) has been a default technique in various visual generative models, yet it requires inference from both conditional and unconditional models during sampling. We propose to build visual models that are free from guided sampling. The resulting algorithm, Guidance-Free Training (GFT), matches the performance of CFG while reducing sampling to a single model, halving the computational cost. Unlike previous distillation-based approaches that rely on pretrained CFG networks, GFT enables training directly from scratch. GFT is simple to implement. It retains the same maximum likelihood objective as CFG and differs mainly in the parameterization of conditional models. Implementing GFT requires only minimal modifications to existing codebases, as most design choices and hyperparameters are directly inherited from CFG. Our extensive experiments across five distinct visual models demonstrate the effectiveness and versatility of GFT. Across domains of diffusion, autoregressive, and masked-prediction modeling, GFT consistently achieves comparable or even lower FID scores, with similar diversity-fidelity trade-offs compared with CFG baselines, all while being guidance-free. Code will be available at https://github.com/thu-ml/GFT.

Generazione Visuale Senza Guida

Visual Generation Without Guidance

Abstract

Support