Misurare la Somiglianza di Stile nei Modelli di Diffusione
Measuring Style Similarity in Diffusion Models
April 1, 2024
Autori: Gowthami Somepalli, Anubhav Gupta, Kamal Gupta, Shramay Palta, Micah Goldblum, Jonas Geiping, Abhinav Shrivastava, Tom Goldstein
cs.AI
Abstract
I modelli generativi sono ora ampiamente utilizzati da graphic designer e artisti. Studi precedenti hanno dimostrato che questi modelli memorizzano e spesso replicano contenuti dai loro dati di addestramento durante la generazione. Pertanto, con la loro crescente diffusione, è diventato importante eseguire una ricerca nel database per determinare se le proprietà dell'immagine siano attribuibili a specifici dati di addestramento, ogni volta prima che un'immagine generata venga utilizzata per scopi professionali. Gli strumenti esistenti per questo scopo si concentrano sul recupero di immagini con contenuto semantico simile. Nel frattempo, molti artisti sono preoccupati per la replicazione dello stile nei modelli text-to-image. Presentiamo un framework per comprendere ed estrarre descrittori di stile dalle immagini. Il nostro framework comprende un nuovo dataset curato utilizzando l'idea che lo stile sia una proprietà soggettiva di un'immagine che cattura interazioni complesse ma significative di fattori tra cui, ma non limitati a, colori, texture, forme, ecc. Proponiamo inoltre un metodo per estrarre descrittori di stile che possono essere utilizzati per attribuire lo stile di un'immagine generata alle immagini utilizzate nel dataset di addestramento di un modello text-to-image. Mostriamo risultati promettenti in varie attività di recupero dello stile. Analizziamo inoltre quantitativamente e qualitativamente l'attribuzione e la corrispondenza dello stile nel modello Stable Diffusion. Codice e artefatti sono disponibili all'indirizzo https://github.com/learn2phoenix/CSD.
English
Generative models are now widely used by graphic designers and artists. Prior
works have shown that these models remember and often replicate content from
their training data during generation. Hence as their proliferation increases,
it has become important to perform a database search to determine whether the
properties of the image are attributable to specific training data, every time
before a generated image is used for professional purposes. Existing tools for
this purpose focus on retrieving images of similar semantic content. Meanwhile,
many artists are concerned with style replication in text-to-image models. We
present a framework for understanding and extracting style descriptors from
images. Our framework comprises a new dataset curated using the insight that
style is a subjective property of an image that captures complex yet meaningful
interactions of factors including but not limited to colors, textures, shapes,
etc. We also propose a method to extract style descriptors that can be used to
attribute style of a generated image to the images used in the training dataset
of a text-to-image model. We showcase promising results in various style
retrieval tasks. We also quantitatively and qualitatively analyze style
attribution and matching in the Stable Diffusion model. Code and artifacts are
available at https://github.com/learn2phoenix/CSD.