ChatPaper.aiChatPaper

CreativeSynth: Fusión Creativa y Síntesis de Artes Visuales basada en Difusión Multimodal

CreativeSynth: Creative Blending and Synthesis of Visual Arts based on Multimodal Diffusion

January 25, 2024
Autores: Nisha Huang, Weiming Dong, Yuxin Zhang, Fan Tang, Ronghui Li, Chongyang Ma, Xiu Li, Changsheng Xu
cs.AI

Resumen

Los modelos generativos de texto a imagen a gran escala han logrado avances impresionantes, demostrando su capacidad para sintetizar una amplia gama de imágenes de alta calidad. Sin embargo, adaptar estos modelos para la edición artística de imágenes presenta dos desafíos significativos. En primer lugar, los usuarios tienen dificultades para elaborar indicaciones textuales que detallen meticulosamente los elementos visuales de la imagen de entrada. En segundo lugar, los modelos predominantes, al efectuar modificaciones en zonas específicas, frecuentemente alteran el estilo artístico general, lo que complica la obtención de obras cohesivas y estéticamente unificadas. Para superar estos obstáculos, hemos desarrollado el innovador marco unificado CreativeSynth, basado en un modelo de difusión con la capacidad de coordinar entradas multimodales y realizar múltiples tareas en el ámbito de la generación de imágenes artísticas. Al integrar características multimodales con mecanismos de atención personalizados, CreativeSynth facilita la importación de contenido semántico del mundo real al dominio del arte mediante inversión y transferencia de estilo en tiempo real. Esto permite la manipulación precisa del estilo y el contenido de la imagen mientras se mantiene la integridad de los parámetros originales del modelo. Evaluaciones cualitativas y cuantitativas rigurosas destacan que CreativeSynth sobresale en la mejora de la fidelidad de las imágenes artísticas y preserva su esencia estética innata. Al cerrar la brecha entre los modelos generativos y el refinamiento artístico, CreativeSynth se convierte en una paleta digital personalizada.
English
Large-scale text-to-image generative models have made impressive strides, showcasing their ability to synthesize a vast array of high-quality images. However, adapting these models for artistic image editing presents two significant challenges. Firstly, users struggle to craft textual prompts that meticulously detail visual elements of the input image. Secondly, prevalent models, when effecting modifications in specific zones, frequently disrupt the overall artistic style, complicating the attainment of cohesive and aesthetically unified artworks. To surmount these obstacles, we build the innovative unified framework CreativeSynth, which is based on a diffusion model with the ability to coordinate multimodal inputs and multitask in the field of artistic image generation. By integrating multimodal features with customized attention mechanisms, CreativeSynth facilitates the importation of real-world semantic content into the domain of art through inversion and real-time style transfer. This allows for the precise manipulation of image style and content while maintaining the integrity of the original model parameters. Rigorous qualitative and quantitative evaluations underscore that CreativeSynth excels in enhancing artistic images' fidelity and preserves their innate aesthetic essence. By bridging the gap between generative models and artistic finesse, CreativeSynth becomes a custom digital palette.
PDF111December 15, 2024