Messung der Stilähnlichkeit in Diffusionsmodellen
Measuring Style Similarity in Diffusion Models
April 1, 2024
Autoren: Gowthami Somepalli, Anubhav Gupta, Kamal Gupta, Shramay Palta, Micah Goldblum, Jonas Geiping, Abhinav Shrivastava, Tom Goldstein
cs.AI
Zusammenfassung
Generative Modelle werden heute von Grafikdesignern und Künstlern weit verbreitet eingesetzt. Frühere Arbeiten haben gezeigt, dass diese Modelle Inhalte aus ihren Trainingsdaten behalten und oft replizieren. Daher ist es mit ihrer zunehmenden Verbreitung wichtig geworden, vor der Verwendung eines generierten Bildes für professionelle Zwecke jedes Mal eine Datenbanksuche durchzuführen, um festzustellen, ob die Eigenschaften des Bildes auf spezifische Trainingsdaten zurückzuführen sind. Bestehende Tools für diesen Zweck konzentrieren sich darauf, Bilder mit ähnlichem semantischem Inhalt abzurufen. In der Zwischenzeit sind viele Künstler daran interessiert, Stilreplikationen in Text-zu-Bild-Modellen durchzuführen. Wir präsentieren einen Rahmen für das Verständnis und die Extraktion von Stilbeschreibern aus Bildern. Unser Rahmen umfasst einen neuen Datensatz, der unter der Erkenntnis kuratiert wurde, dass Stil eine subjektive Eigenschaft eines Bildes ist, die komplexe, aber bedeutungsvolle Interaktionen von Faktoren wie Farben, Texturen, Formen usw. erfasst. Wir schlagen auch eine Methode zur Extraktion von Stilbeschreibern vor, die verwendet werden können, um den Stil eines generierten Bildes den Bildern zuzuordnen, die im Trainingsdatensatz eines Text-zu-Bild-Modells verwendet wurden. Wir präsentieren vielversprechende Ergebnisse in verschiedenen Stilabrufaufgaben. Wir analysieren den Stilzuweisungs- und Abgleichprozess im Stable Diffusion-Modell quantitativ und qualitativ. Der Code und die Artefakte sind unter https://github.com/learn2phoenix/CSD verfügbar.
English
Generative models are now widely used by graphic designers and artists. Prior
works have shown that these models remember and often replicate content from
their training data during generation. Hence as their proliferation increases,
it has become important to perform a database search to determine whether the
properties of the image are attributable to specific training data, every time
before a generated image is used for professional purposes. Existing tools for
this purpose focus on retrieving images of similar semantic content. Meanwhile,
many artists are concerned with style replication in text-to-image models. We
present a framework for understanding and extracting style descriptors from
images. Our framework comprises a new dataset curated using the insight that
style is a subjective property of an image that captures complex yet meaningful
interactions of factors including but not limited to colors, textures, shapes,
etc. We also propose a method to extract style descriptors that can be used to
attribute style of a generated image to the images used in the training dataset
of a text-to-image model. We showcase promising results in various style
retrieval tasks. We also quantitatively and qualitatively analyze style
attribution and matching in the Stable Diffusion model. Code and artifacts are
available at https://github.com/learn2phoenix/CSD.Summary
AI-Generated Summary