CreativeSynth : Fusion créative et synthèse des arts visuels basées sur la diffusion multimodale
CreativeSynth: Creative Blending and Synthesis of Visual Arts based on Multimodal Diffusion
January 25, 2024
Auteurs: Nisha Huang, Weiming Dong, Yuxin Zhang, Fan Tang, Ronghui Li, Chongyang Ma, Xiu Li, Changsheng Xu
cs.AI
Résumé
Les modèles génératifs de grande échelle pour la synthèse d'images à partir de texte ont réalisé des progrès impressionnants, démontrant leur capacité à produire une vaste gamme d'images de haute qualité. Cependant, l'adaptation de ces modèles pour l'édition artistique d'images soulève deux défis majeurs. Premièrement, les utilisateurs éprouvent des difficultés à formuler des prompts textuels détaillant minutieusement les éléments visuels de l'image d'entrée. Deuxièmement, les modèles courants, lorsqu'ils modifient des zones spécifiques, perturbent fréquemment le style artistique global, compliquant ainsi l'obtention d'œuvres cohérentes et esthétiquement unifiées. Pour surmonter ces obstacles, nous avons développé le cadre innovant unifié CreativeSynth, basé sur un modèle de diffusion capable de coordonner des entrées multimodales et de gérer des tâches multiples dans le domaine de la génération d'images artistiques. En intégrant des caractéristiques multimodales avec des mécanismes d'attention personnalisés, CreativeSynth facilite l'importation de contenu sémantique du monde réel dans le domaine artistique grâce à l'inversion et au transfert de style en temps réel. Cela permet une manipulation précise du style et du contenu de l'image tout en préservant l'intégrité des paramètres originaux du modèle. Des évaluations qualitatives et quantitatives rigoureuses soulignent que CreativeSynth excelle dans l'amélioration de la fidélité des images artistiques et préserve leur essence esthétique intrinsèque. En comblant l'écart entre les modèles génératifs et la finesse artistique, CreativeSynth devient une palette numérique personnalisée.
English
Large-scale text-to-image generative models have made impressive strides,
showcasing their ability to synthesize a vast array of high-quality images.
However, adapting these models for artistic image editing presents two
significant challenges. Firstly, users struggle to craft textual prompts that
meticulously detail visual elements of the input image. Secondly, prevalent
models, when effecting modifications in specific zones, frequently disrupt the
overall artistic style, complicating the attainment of cohesive and
aesthetically unified artworks. To surmount these obstacles, we build the
innovative unified framework CreativeSynth, which is based on a diffusion model
with the ability to coordinate multimodal inputs and multitask in the field of
artistic image generation. By integrating multimodal features with customized
attention mechanisms, CreativeSynth facilitates the importation of real-world
semantic content into the domain of art through inversion and real-time style
transfer. This allows for the precise manipulation of image style and content
while maintaining the integrity of the original model parameters. Rigorous
qualitative and quantitative evaluations underscore that CreativeSynth excels
in enhancing artistic images' fidelity and preserves their innate aesthetic
essence. By bridging the gap between generative models and artistic finesse,
CreativeSynth becomes a custom digital palette.