ChatPaper.aiChatPaper

Generación Visual Sin Guía

Visual Generation Without Guidance

January 26, 2025
Autores: Huayu Chen, Kai Jiang, Kaiwen Zheng, Jianfei Chen, Hang Su, Jun Zhu
cs.AI

Resumen

La Guía sin Clasificador (CFG, por sus siglas en inglés) ha sido una técnica predeterminada en varios modelos generativos visuales, sin embargo, requiere inferencia tanto de modelos condicionales como incondicionales durante el muestreo. Proponemos construir modelos visuales que estén libres de muestreo guiado. El algoritmo resultante, Entrenamiento sin Guía (GFT, por sus siglas en inglés), iguala el rendimiento de CFG mientras reduce el muestreo a un solo modelo, reduciendo a la mitad el costo computacional. A diferencia de enfoques anteriores basados en destilación que dependen de redes CFG preentrenadas, GFT permite el entrenamiento directo desde cero. GFT es simple de implementar. Conserva el mismo objetivo de máxima verosimilitud que CFG y difiere principalmente en la parametrización de modelos condicionales. La implementación de GFT requiere solo modificaciones mínimas a bases de código existentes, ya que la mayoría de las decisiones de diseño y hiperparámetros se heredan directamente de CFG. Nuestros extensos experimentos en cinco modelos visuales distintos demuestran la efectividad y versatilidad de GFT. A través de dominios de difusión, autoregresión y modelado de predicción enmascarada, GFT logra consistentemente puntajes FID comparables o incluso más bajos, con compensaciones similares entre diversidad y fidelidad en comparación con las líneas de base de CFG, todo ello sin necesidad de guía. El código estará disponible en https://github.com/thu-ml/GFT.
English
Classifier-Free Guidance (CFG) has been a default technique in various visual generative models, yet it requires inference from both conditional and unconditional models during sampling. We propose to build visual models that are free from guided sampling. The resulting algorithm, Guidance-Free Training (GFT), matches the performance of CFG while reducing sampling to a single model, halving the computational cost. Unlike previous distillation-based approaches that rely on pretrained CFG networks, GFT enables training directly from scratch. GFT is simple to implement. It retains the same maximum likelihood objective as CFG and differs mainly in the parameterization of conditional models. Implementing GFT requires only minimal modifications to existing codebases, as most design choices and hyperparameters are directly inherited from CFG. Our extensive experiments across five distinct visual models demonstrate the effectiveness and versatility of GFT. Across domains of diffusion, autoregressive, and masked-prediction modeling, GFT consistently achieves comparable or even lower FID scores, with similar diversity-fidelity trade-offs compared with CFG baselines, all while being guidance-free. Code will be available at https://github.com/thu-ml/GFT.

Summary

AI-Generated Summary

PDF83January 28, 2025