CreativeSynth: Kreative Verschmelzung und Synthese von visueller Kunst basierend auf multimodaler Diffusion
CreativeSynth: Creative Blending and Synthesis of Visual Arts based on Multimodal Diffusion
January 25, 2024
papers.authors: Nisha Huang, Weiming Dong, Yuxin Zhang, Fan Tang, Ronghui Li, Chongyang Ma, Xiu Li, Changsheng Xu
cs.AI
papers.abstract
Groß angelegte Text-zu-Bild-Generierungsmodelle haben beeindruckende Fortschritte gemacht und ihre Fähigkeit demonstriert, eine Vielzahl von hochwertigen Bildern zu synthetisieren. Die Anpassung dieser Modelle für die künstlerische Bildbearbeitung stellt jedoch zwei wesentliche Herausforderungen dar. Erstens fällt es Nutzern schwer, textuelle Eingabeaufforderungen zu formulieren, die die visuellen Elemente des Eingabebildes detailliert beschreiben. Zweitens stören verbreitete Modelle bei der Modifikation spezifischer Bereiche häufig den gesamten künstlerischen Stil, was die Erzielung kohärenter und ästhetisch einheitlicher Kunstwerke erschwert. Um diese Hindernisse zu überwinden, entwickeln wir das innovative, einheitliche Framework CreativeSynth, das auf einem Diffusionsmodell basiert, das in der Lage ist, multimodale Eingaben zu koordinieren und Multitasking im Bereich der künstlerischen Bildgenerierung zu betreiben. Durch die Integration multimodaler Merkmale mit maßgeschneiderten Aufmerksamkeitsmechanismen ermöglicht CreativeSynth die Einbindung realer semantischer Inhalte in den künstlerischen Bereich durch Inversion und Echtzeit-Stiltransfer. Dies ermöglicht die präzise Manipulation von Bildstil und -inhalt bei gleichzeitiger Wahrung der Integrität der ursprünglichen Modellparameter. Umfangreiche qualitative und quantitative Bewertungen unterstreichen, dass CreativeSynth bei der Verbesserung der Detailtreue künstlerischer Bilder und der Bewahrung ihrer inhärenten ästhetischen Essenz hervorragend abschneidet. Indem es die Lücke zwischen generativen Modellen und künstlerischer Finesse schließt, wird CreativeSynth zu einem maßgeschneiderten digitalen Werkzeug.
English
Large-scale text-to-image generative models have made impressive strides,
showcasing their ability to synthesize a vast array of high-quality images.
However, adapting these models for artistic image editing presents two
significant challenges. Firstly, users struggle to craft textual prompts that
meticulously detail visual elements of the input image. Secondly, prevalent
models, when effecting modifications in specific zones, frequently disrupt the
overall artistic style, complicating the attainment of cohesive and
aesthetically unified artworks. To surmount these obstacles, we build the
innovative unified framework CreativeSynth, which is based on a diffusion model
with the ability to coordinate multimodal inputs and multitask in the field of
artistic image generation. By integrating multimodal features with customized
attention mechanisms, CreativeSynth facilitates the importation of real-world
semantic content into the domain of art through inversion and real-time style
transfer. This allows for the precise manipulation of image style and content
while maintaining the integrity of the original model parameters. Rigorous
qualitative and quantitative evaluations underscore that CreativeSynth excels
in enhancing artistic images' fidelity and preserves their innate aesthetic
essence. By bridging the gap between generative models and artistic finesse,
CreativeSynth becomes a custom digital palette.