ChatPaper.aiChatPaper

Medindo a Similaridade de Estilo em Modelos de Difusão

Measuring Style Similarity in Diffusion Models

April 1, 2024
Autores: Gowthami Somepalli, Anubhav Gupta, Kamal Gupta, Shramay Palta, Micah Goldblum, Jonas Geiping, Abhinav Shrivastava, Tom Goldstein
cs.AI

Resumo

Modelos generativos são agora amplamente utilizados por designers gráficos e artistas. Trabalhos anteriores demonstraram que esses modelos memorizam e frequentemente replicam conteúdo de seus dados de treinamento durante a geração. Portanto, à medida que sua proliferação aumenta, tornou-se importante realizar uma busca em banco de dados para determinar se as propriedades da imagem são atribuíveis a dados específicos de treinamento, sempre antes que uma imagem gerada seja usada para fins profissionais. As ferramentas existentes para esse propósito focam na recuperação de imagens com conteúdo semântico similar. Enquanto isso, muitos artistas estão preocupados com a replicação de estilo em modelos de texto para imagem. Apresentamos um framework para compreender e extrair descritores de estilo de imagens. Nosso framework compreende um novo conjunto de dados curado utilizando a percepção de que o estilo é uma propriedade subjetiva de uma imagem que captura interações complexas, mas significativas, de fatores incluindo, mas não se limitando a cores, texturas, formas, etc. Também propomos um método para extrair descritores de estilo que podem ser usados para atribuir o estilo de uma imagem gerada às imagens utilizadas no conjunto de treinamento de um modelo de texto para imagem. Demonstramos resultados promissores em várias tarefas de recuperação de estilo. Também analisamos quantitativa e qualitativamente a atribuição e correspondência de estilo no modelo Stable Diffusion. Código e artefatos estão disponíveis em https://github.com/learn2phoenix/CSD.
English
Generative models are now widely used by graphic designers and artists. Prior works have shown that these models remember and often replicate content from their training data during generation. Hence as their proliferation increases, it has become important to perform a database search to determine whether the properties of the image are attributable to specific training data, every time before a generated image is used for professional purposes. Existing tools for this purpose focus on retrieving images of similar semantic content. Meanwhile, many artists are concerned with style replication in text-to-image models. We present a framework for understanding and extracting style descriptors from images. Our framework comprises a new dataset curated using the insight that style is a subjective property of an image that captures complex yet meaningful interactions of factors including but not limited to colors, textures, shapes, etc. We also propose a method to extract style descriptors that can be used to attribute style of a generated image to the images used in the training dataset of a text-to-image model. We showcase promising results in various style retrieval tasks. We also quantitatively and qualitatively analyze style attribution and matching in the Stable Diffusion model. Code and artifacts are available at https://github.com/learn2phoenix/CSD.
PDF171February 8, 2026