ChatPaper.aiChatPaper

Het meten van stijlgelijkheid in diffusiemodellen

Measuring Style Similarity in Diffusion Models

April 1, 2024
Auteurs: Gowthami Somepalli, Anubhav Gupta, Kamal Gupta, Shramay Palta, Micah Goldblum, Jonas Geiping, Abhinav Shrivastava, Tom Goldstein
cs.AI

Samenvatting

Generatieve modellen worden tegenwoordig veel gebruikt door grafisch ontwerpers en kunstenaars. Eerdere onderzoeken hebben aangetoond dat deze modellen inhoud uit hun trainingsdata onthouden en vaak repliceren tijdens het genereren. Naarmate hun populariteit toeneemt, is het daarom belangrijk geworden om een databasesearch uit te voeren om te bepalen of de eigenschappen van een afbeelding kunnen worden toegeschreven aan specifieke trainingsdata, telkens voordat een gegenereerde afbeelding voor professionele doeleinden wordt gebruikt. Bestaande tools voor dit doel richten zich op het ophalen van afbeeldingen met vergelijkbare semantische inhoud. Tegelijkertijd maken veel kunstenaars zich zorgen over stijlreplicatie in tekst-naar-afbeelding-modellen. Wij presenteren een raamwerk voor het begrijpen en extraheren van stijlbeschrijvingen uit afbeeldingen. Ons raamwerk omvat een nieuwe dataset die is samengesteld met het inzicht dat stijl een subjectieve eigenschap van een afbeelding is die complexe maar betekenisvolle interacties van factoren vastlegt, waaronder maar niet beperkt tot kleuren, texturen, vormen, enz. We stellen ook een methode voor om stijlbeschrijvingen te extraheren die kunnen worden gebruikt om de stijl van een gegenereerde afbeelding toe te schrijven aan de afbeeldingen die zijn gebruikt in de trainingsdataset van een tekst-naar-afbeelding-model. We laten veelbelovende resultaten zien in verschillende stijlretrievaltaken. We analyseren ook kwantitatief en kwalitatief stijltoeschrijving en -matching in het Stable Diffusion-model. Code en artefacten zijn beschikbaar op https://github.com/learn2phoenix/CSD.
English
Generative models are now widely used by graphic designers and artists. Prior works have shown that these models remember and often replicate content from their training data during generation. Hence as their proliferation increases, it has become important to perform a database search to determine whether the properties of the image are attributable to specific training data, every time before a generated image is used for professional purposes. Existing tools for this purpose focus on retrieving images of similar semantic content. Meanwhile, many artists are concerned with style replication in text-to-image models. We present a framework for understanding and extracting style descriptors from images. Our framework comprises a new dataset curated using the insight that style is a subjective property of an image that captures complex yet meaningful interactions of factors including but not limited to colors, textures, shapes, etc. We also propose a method to extract style descriptors that can be used to attribute style of a generated image to the images used in the training dataset of a text-to-image model. We showcase promising results in various style retrieval tasks. We also quantitatively and qualitatively analyze style attribution and matching in the Stable Diffusion model. Code and artifacts are available at https://github.com/learn2phoenix/CSD.
PDF171February 8, 2026