StyleDrop: Tekst-naar-beeldgeneratie in elke stijl
StyleDrop: Text-to-Image Generation in Any Style
June 1, 2023
Auteurs: Kihyuk Sohn, Nataniel Ruiz, Kimin Lee, Daniel Castro Chin, Irina Blok, Huiwen Chang, Jarred Barber, Lu Jiang, Glenn Entis, Yuanzhen Li, Yuan Hao, Irfan Essa, Michael Rubinstein, Dilip Krishnan
cs.AI
Samenvatting
Voorgetrainde grote tekst-naar-beeldmodellen genereren indrukwekkende afbeeldingen met een
passend gebruik van tekstprompts. Echter, inherente ambiguïteiten in natuurlijke
taal en out-of-distribution-effecten maken het moeilijk om beeldstijlen te
synthetiseren die gebruikmaken van een specifiek ontwerppatroon, textuur of materiaal. In dit
artikel introduceren we StyleDrop, een methode die het mogelijk maakt om afbeeldingen te
synthetiseren die trouw een specifieke stijl volgen met behulp van een tekst-naar-beeldmodel. De
voorgestelde methode is uiterst veelzijdig en vangt nuances en details van een
door de gebruiker aangeleverde stijl, zoals kleurenschema's, schaduw, ontwerppatronen, en lokale
en globale effecten. Het leert efficiënt een nieuwe stijl door het finetunen van zeer weinig
trainbare parameters (minder dan 1% van de totale modelparameters) en verbetert
de kwaliteit via iteratieve training met menselijke of geautomatiseerde feedback.
Nog beter, StyleDrop is in staat indrukwekkende resultaten te leveren, zelfs wanneer de gebruiker
slechts één afbeelding levert die de gewenste stijl specificeert. Een uitgebreide
studie toont aan dat, voor de taak van stijlaanpassing van tekst-naar-beeldmodellen, StyleDrop
geïmplementeerd op Muse overtuigend beter presteert dan andere methoden, waaronder
DreamBooth en tekstuele inversie op Imagen of Stable Diffusion. Meer resultaten
zijn beschikbaar op onze projectwebsite: https://styledrop.github.io
English
Pre-trained large text-to-image models synthesize impressive images with an
appropriate use of text prompts. However, ambiguities inherent in natural
language and out-of-distribution effects make it hard to synthesize image
styles, that leverage a specific design pattern, texture or material. In this
paper, we introduce StyleDrop, a method that enables the synthesis of images
that faithfully follow a specific style using a text-to-image model. The
proposed method is extremely versatile and captures nuances and details of a
user-provided style, such as color schemes, shading, design patterns, and local
and global effects. It efficiently learns a new style by fine-tuning very few
trainable parameters (less than 1% of total model parameters) and improving
the quality via iterative training with either human or automated feedback.
Better yet, StyleDrop is able to deliver impressive results even when the user
supplies only a single image that specifies the desired style. An extensive
study shows that, for the task of style tuning text-to-image models, StyleDrop
implemented on Muse convincingly outperforms other methods, including
DreamBooth and textual inversion on Imagen or Stable Diffusion. More results
are available at our project website: https://styledrop.github.io