DreamStyler: Malen durch Stilinversion mit Text-zu-Bild-Diffusionsmodellen
DreamStyler: Paint by Style Inversion with Text-to-Image Diffusion Models
September 13, 2023
Autoren: Namhyuk Ahn, Junsoo Lee, Chunggi Lee, Kunhee Kim, Daesik Kim, Seung-Hun Nam, Kibeom Hong
cs.AI
Zusammenfassung
Jüngste Fortschritte bei groß angelegten Text-zu-Bild-Modellen haben bemerkenswerte Erfolge erzielt und verschiedene Anwendungen im Kunstbereich gefunden. Die Darstellung einzigartiger Merkmale eines Kunstwerks (z. B. Pinselführung, Farbton oder Komposition) allein durch Textprompts kann jedoch aufgrund der inhärenten Beschränkungen verbaler Beschreibungen auf Grenzen stoßen. Zu diesem Zweck stellen wir DreamStyler vor, ein neuartiges Framework für die künstlerische Bildsynthese, das sowohl in der Text-zu-Bild-Synthese als auch im Stiltransfer versiert ist. DreamStyler optimiert eine mehrstufige Text-Einbettung mit einem kontextbewussten Textprompt, was zu einer herausragenden Bildqualität führt. Darüber hinaus zeigt DreamStyler durch Inhalts- und Stilführung Flexibilität, um eine Vielzahl von Stilreferenzen zu berücksichtigen. Experimentelle Ergebnisse demonstrieren seine überlegene Leistung in verschiedenen Szenarien und deuten auf sein vielversprechendes Potenzial bei der künstlerischen Produkterstellung hin.
English
Recent progresses in large-scale text-to-image models have yielded remarkable
accomplishments, finding various applications in art domain. However,
expressing unique characteristics of an artwork (e.g. brushwork, colortone, or
composition) with text prompts alone may encounter limitations due to the
inherent constraints of verbal description. To this end, we introduce
DreamStyler, a novel framework designed for artistic image synthesis,
proficient in both text-to-image synthesis and style transfer. DreamStyler
optimizes a multi-stage textual embedding with a context-aware text prompt,
resulting in prominent image quality. In addition, with content and style
guidance, DreamStyler exhibits flexibility to accommodate a range of style
references. Experimental results demonstrate its superior performance across
multiple scenarios, suggesting its promising potential in artistic product
creation.