ChatPaper.aiChatPaper

Guiar un modelo de difusión con una versión deficiente de sí mismo

Guiding a Diffusion Model with a Bad Version of Itself

June 4, 2024
Autores: Tero Karras, Miika Aittala, Tuomas Kynkäänniemi, Jaakko Lehtinen, Timo Aila, Samuli Laine
cs.AI

Resumen

Los ejes principales de interés en los modelos de difusión para generación de imágenes son la calidad de la imagen, la cantidad de variación en los resultados y qué tan bien los resultados se alinean con una condición dada, por ejemplo, una etiqueta de clase o un prompt de texto. El enfoque popular de guía sin clasificador utiliza un modelo no condicional para guiar un modelo condicional, lo que conduce a una mejor alineación con el prompt y a imágenes de mayor calidad, a costa de una reducción en la variación. Estos efectos parecen intrínsecamente entrelazados y, por lo tanto, difíciles de controlar. Hacemos la observación sorprendente de que es posible obtener un control desentrelazado sobre la calidad de la imagen sin comprometer la cantidad de variación, guiando la generación utilizando una versión más pequeña y menos entrenada del propio modelo en lugar de un modelo no condicional. Esto conduce a mejoras significativas en la generación de ImageNet, estableciendo récords de FID de 1.01 para 64x64 y 1.25 para 512x512, utilizando redes disponibles públicamente. Además, el método también es aplicable a modelos de difusión no condicionales, mejorando drásticamente su calidad.
English
The primary axes of interest in image-generating diffusion models are image quality, the amount of variation in the results, and how well the results align with a given condition, e.g., a class label or a text prompt. The popular classifier-free guidance approach uses an unconditional model to guide a conditional model, leading to simultaneously better prompt alignment and higher-quality images at the cost of reduced variation. These effects seem inherently entangled, and thus hard to control. We make the surprising observation that it is possible to obtain disentangled control over image quality without compromising the amount of variation by guiding generation using a smaller, less-trained version of the model itself rather than an unconditional model. This leads to significant improvements in ImageNet generation, setting record FIDs of 1.01 for 64x64 and 1.25 for 512x512, using publicly available networks. Furthermore, the method is also applicable to unconditional diffusion models, drastically improving their quality.

Summary

AI-Generated Summary

PDF171December 12, 2024