ChatPaper.aiChatPaper

CreativeSynth: Творческое смешение и синтез визуальных искусств на основе мультимодальной диффузии

CreativeSynth: Creative Blending and Synthesis of Visual Arts based on Multimodal Diffusion

January 25, 2024
Авторы: Nisha Huang, Weiming Dong, Yuxin Zhang, Fan Tang, Ronghui Li, Chongyang Ma, Xiu Li, Changsheng Xu
cs.AI

Аннотация

Крупномасштабные генеративные модели для преобразования текста в изображения достигли впечатляющих успехов, демонстрируя способность синтезировать широкий спектр высококачественных изображений. Однако адаптация этих моделей для художественного редактирования изображений сталкивается с двумя значительными проблемами. Во-первых, пользователям сложно создавать текстовые запросы, которые детально описывают визуальные элементы исходного изображения. Во-вторых, распространённые модели, при внесении изменений в определённые области, часто нарушают общий художественный стиль, что затрудняет достижение целостных и эстетически гармоничных произведений. Для преодоления этих трудностей мы разработали инновационную унифицированную структуру CreativeSynth, основанную на диффузионной модели, способной координировать мультимодальные входные данные и выполнять многозадачность в области художественной генерации изображений. Интегрируя мультимодальные функции с настраиваемыми механизмами внимания, CreativeSynth позволяет переносить семантическое содержание реального мира в художественную область через инверсию и передачу стиля в реальном времени. Это обеспечивает точное управление стилем и содержанием изображения, сохраняя целостность исходных параметров модели. Тщательные качественные и количественные оценки подчеркивают, что CreativeSynth превосходно улучшает точность художественных изображений и сохраняет их врождённую эстетическую сущность. Соединяя разрыв между генеративными моделями и художественным мастерством, CreativeSynth становится индивидуальной цифровой палитрой.
English
Large-scale text-to-image generative models have made impressive strides, showcasing their ability to synthesize a vast array of high-quality images. However, adapting these models for artistic image editing presents two significant challenges. Firstly, users struggle to craft textual prompts that meticulously detail visual elements of the input image. Secondly, prevalent models, when effecting modifications in specific zones, frequently disrupt the overall artistic style, complicating the attainment of cohesive and aesthetically unified artworks. To surmount these obstacles, we build the innovative unified framework CreativeSynth, which is based on a diffusion model with the ability to coordinate multimodal inputs and multitask in the field of artistic image generation. By integrating multimodal features with customized attention mechanisms, CreativeSynth facilitates the importation of real-world semantic content into the domain of art through inversion and real-time style transfer. This allows for the precise manipulation of image style and content while maintaining the integrity of the original model parameters. Rigorous qualitative and quantitative evaluations underscore that CreativeSynth excels in enhancing artistic images' fidelity and preserves their innate aesthetic essence. By bridging the gap between generative models and artistic finesse, CreativeSynth becomes a custom digital palette.
PDF111December 15, 2024