CreativeSynth: Creatief mengen en synthetiseren van visuele kunst gebaseerd op multimodale diffusie
CreativeSynth: Creative Blending and Synthesis of Visual Arts based on Multimodal Diffusion
January 25, 2024
Auteurs: Nisha Huang, Weiming Dong, Yuxin Zhang, Fan Tang, Ronghui Li, Chongyang Ma, Xiu Li, Changsheng Xu
cs.AI
Samenvatting
Grootschalige tekst-naar-beeld generatieve modellen hebben indrukwekkende vooruitgang geboekt, waarbij ze hun vermogen hebben getoond om een breed scala aan hoogwaardige afbeeldingen te synthetiseren. Het aanpassen van deze modellen voor artistieke beeldbewerking brengt echter twee belangrijke uitdagingen met zich mee. Ten eerste hebben gebruikers moeite met het formuleren van tekstuele prompts die visuele elementen van de invoerafbeelding nauwkeurig detailleren. Ten tweede verstoren veelvoorkomende modellen, bij het aanbrengen van wijzigingen in specifieke zones, vaak de algehele artistieke stijl, wat het bereiken van samenhangende en esthetisch verenigde kunstwerken bemoeilijkt. Om deze obstakels te overwinnen, hebben we het innovatieve unified framework CreativeSynth ontwikkeld, dat gebaseerd is op een diffusiemodel met de mogelijkheid om multimodale invoer te coördineren en multitasken op het gebied van artistieke beeldgeneratie. Door multimodale kenmerken te integreren met aangepaste aandachtmechanismen, vergemakkelijkt CreativeSynth het importeren van real-world semantische inhoud in het domein van kunst door inversie en real-time stijloverdracht. Hierdoor wordt een nauwkeurige manipulatie van beeldstijl en -inhoud mogelijk gemaakt, terwijl de integriteit van de oorspronkelijke modelparameters behouden blijft. Uitvoerige kwalitatieve en kwantitatieve evaluaties benadrukken dat CreativeSynth uitblinkt in het verbeteren van de getrouwheid van artistieke afbeeldingen en hun inherente esthetische essentie behoudt. Door de kloof tussen generatieve modellen en artistiek vakmanschap te overbruggen, wordt CreativeSynth een op maat gemaakt digitaal palet.
English
Large-scale text-to-image generative models have made impressive strides,
showcasing their ability to synthesize a vast array of high-quality images.
However, adapting these models for artistic image editing presents two
significant challenges. Firstly, users struggle to craft textual prompts that
meticulously detail visual elements of the input image. Secondly, prevalent
models, when effecting modifications in specific zones, frequently disrupt the
overall artistic style, complicating the attainment of cohesive and
aesthetically unified artworks. To surmount these obstacles, we build the
innovative unified framework CreativeSynth, which is based on a diffusion model
with the ability to coordinate multimodal inputs and multitask in the field of
artistic image generation. By integrating multimodal features with customized
attention mechanisms, CreativeSynth facilitates the importation of real-world
semantic content into the domain of art through inversion and real-time style
transfer. This allows for the precise manipulation of image style and content
while maintaining the integrity of the original model parameters. Rigorous
qualitative and quantitative evaluations underscore that CreativeSynth excels
in enhancing artistic images' fidelity and preserves their innate aesthetic
essence. By bridging the gap between generative models and artistic finesse,
CreativeSynth becomes a custom digital palette.