ChatPaper.aiChatPaper

Guiando um Modelo de Difusão com uma Versão Inferior de Si Mesmo

Guiding a Diffusion Model with a Bad Version of Itself

June 4, 2024
Autores: Tero Karras, Miika Aittala, Tuomas Kynkäänniemi, Jaakko Lehtinen, Timo Aila, Samuli Laine
cs.AI

Resumo

Os principais eixos de interesse em modelos de difusão para geração de imagens são a qualidade da imagem, a quantidade de variação nos resultados e o quão bem os resultados se alinham com uma condição dada, por exemplo, um rótulo de classe ou um prompt de texto. A popular abordagem de orientação sem classificador utiliza um modelo incondicional para guiar um modelo condicional, resultando em um melhor alinhamento com o prompt e em imagens de maior qualidade, mas à custa de uma redução na variação. Esses efeitos parecem intrinsecamente entrelaçados e, portanto, difíceis de controlar. Fazemos a observação surpreendente de que é possível obter controle desacoplado sobre a qualidade da imagem sem comprometer a quantidade de variação, guiando a geração usando uma versão menor e menos treinada do próprio modelo, em vez de um modelo incondicional. Isso leva a melhorias significativas na geração de imagens no ImageNet, estabelecendo recordes de FID de 1,01 para 64x64 e 1,25 para 512x512, utilizando redes publicamente disponíveis. Além disso, o método também é aplicável a modelos de difusão incondicionais, melhorando drasticamente sua qualidade.
English
The primary axes of interest in image-generating diffusion models are image quality, the amount of variation in the results, and how well the results align with a given condition, e.g., a class label or a text prompt. The popular classifier-free guidance approach uses an unconditional model to guide a conditional model, leading to simultaneously better prompt alignment and higher-quality images at the cost of reduced variation. These effects seem inherently entangled, and thus hard to control. We make the surprising observation that it is possible to obtain disentangled control over image quality without compromising the amount of variation by guiding generation using a smaller, less-trained version of the model itself rather than an unconditional model. This leads to significant improvements in ImageNet generation, setting record FIDs of 1.01 for 64x64 and 1.25 for 512x512, using publicly available networks. Furthermore, the method is also applicable to unconditional diffusion models, drastically improving their quality.
PDF171December 12, 2024