CreativeSynth: Mistura Criativa e Síntese de Artes Visuais Baseada em Difusão Multimodal
CreativeSynth: Creative Blending and Synthesis of Visual Arts based on Multimodal Diffusion
January 25, 2024
Autores: Nisha Huang, Weiming Dong, Yuxin Zhang, Fan Tang, Ronghui Li, Chongyang Ma, Xiu Li, Changsheng Xu
cs.AI
Resumo
Modelos generativos de texto para imagem em larga escala têm feito avanços impressionantes, demonstrando sua capacidade de sintetizar uma vasta gama de imagens de alta qualidade. No entanto, adaptar esses modelos para edição artística de imagens apresenta dois desafios significativos. Primeiramente, os usuários enfrentam dificuldades para criar prompts textuais que detalhem meticulosamente os elementos visuais da imagem de entrada. Em segundo lugar, os modelos predominantes, ao efetuar modificações em zonas específicas, frequentemente perturbam o estilo artístico geral, dificultando a obtenção de obras coesas e esteticamente unificadas. Para superar esses obstáculos, construímos o inovador framework unificado CreativeSynth, baseado em um modelo de difusão com a capacidade de coordenar entradas multimodais e multitarefas no campo da geração de imagens artísticas. Ao integrar características multimodais com mecanismos de atenção personalizados, o CreativeSynth facilita a importação de conteúdo semântico do mundo real para o domínio da arte por meio de inversão e transferência de estilo em tempo real. Isso permite a manipulação precisa do estilo e do conteúdo da imagem, mantendo a integridade dos parâmetros originais do modelo. Avaliações qualitativas e quantitativas rigorosas destacam que o CreativeSynth se destaca ao aprimorar a fidelidade das imagens artísticas e preservar sua essência estética inata. Ao preencher a lacuna entre modelos generativos e refinamento artístico, o CreativeSynth se torna uma paleta digital personalizada.
English
Large-scale text-to-image generative models have made impressive strides,
showcasing their ability to synthesize a vast array of high-quality images.
However, adapting these models for artistic image editing presents two
significant challenges. Firstly, users struggle to craft textual prompts that
meticulously detail visual elements of the input image. Secondly, prevalent
models, when effecting modifications in specific zones, frequently disrupt the
overall artistic style, complicating the attainment of cohesive and
aesthetically unified artworks. To surmount these obstacles, we build the
innovative unified framework CreativeSynth, which is based on a diffusion model
with the ability to coordinate multimodal inputs and multitask in the field of
artistic image generation. By integrating multimodal features with customized
attention mechanisms, CreativeSynth facilitates the importation of real-world
semantic content into the domain of art through inversion and real-time style
transfer. This allows for the precise manipulation of image style and content
while maintaining the integrity of the original model parameters. Rigorous
qualitative and quantitative evaluations underscore that CreativeSynth excels
in enhancing artistic images' fidelity and preserves their innate aesthetic
essence. By bridging the gap between generative models and artistic finesse,
CreativeSynth becomes a custom digital palette.