ChatPaper.aiChatPaper

CreativeSynth: 다중모드 확산 기반 시각 예술의 창의적 혼합 및 합성

CreativeSynth: Creative Blending and Synthesis of Visual Arts based on Multimodal Diffusion

January 25, 2024
저자: Nisha Huang, Weiming Dong, Yuxin Zhang, Fan Tang, Ronghui Li, Chongyang Ma, Xiu Li, Changsheng Xu
cs.AI

초록

대규모 텍스트-이미지 생성 모델은 다양한 고품질 이미지를 합성할 수 있는 능력을 보여주며 인상적인 발전을 이루어 왔습니다. 그러나 이러한 모델을 예술적 이미지 편집에 적용하기 위해서는 두 가지 주요 과제가 존재합니다. 첫째, 사용자가 입력 이미지의 시각적 요소를 세밀하게 기술하는 텍스트 프롬프트를 작성하는 데 어려움을 겪는다는 점입니다. 둘째, 널리 사용되는 모델들은 특정 영역을 수정할 때 전체 예술적 스타일을 자주 훼손하여, 일관성 있고 미적으로 통일된 작품을 얻는 것을 어렵게 만듭니다. 이러한 장애물을 극복하기 위해, 우리는 다중 모드 입력을 조율하고 예술적 이미지 생성 분야에서 다중 작업을 수행할 수 있는 확산 모델을 기반으로 한 혁신적인 통합 프레임워크인 CreativeSynth를 구축했습니다. CreativeSynth는 다중 모드 특징을 맞춤형 주의 메커니즘과 통합함으로써, 역변환 및 실시간 스타일 전이를 통해 현실 세계의 의미론적 내용을 예술 영역으로 가져올 수 있도록 합니다. 이를 통해 원본 모델 파라미터의 무결성을 유지하면서 이미지 스타일과 내용을 정밀하게 조작할 수 있습니다. 엄격한 정성적 및 정량적 평가를 통해 CreativeSynth가 예술적 이미지의 충실도를 향상시키고 그 고유한 미적 본질을 보존하는 데 탁월함을 입증했습니다. 생성 모델과 예술적 섬세함 사이의 간극을 메우는 CreativeSynth는 맞춤형 디지털 팔레트로 자리 잡았습니다.
English
Large-scale text-to-image generative models have made impressive strides, showcasing their ability to synthesize a vast array of high-quality images. However, adapting these models for artistic image editing presents two significant challenges. Firstly, users struggle to craft textual prompts that meticulously detail visual elements of the input image. Secondly, prevalent models, when effecting modifications in specific zones, frequently disrupt the overall artistic style, complicating the attainment of cohesive and aesthetically unified artworks. To surmount these obstacles, we build the innovative unified framework CreativeSynth, which is based on a diffusion model with the ability to coordinate multimodal inputs and multitask in the field of artistic image generation. By integrating multimodal features with customized attention mechanisms, CreativeSynth facilitates the importation of real-world semantic content into the domain of art through inversion and real-time style transfer. This allows for the precise manipulation of image style and content while maintaining the integrity of the original model parameters. Rigorous qualitative and quantitative evaluations underscore that CreativeSynth excels in enhancing artistic images' fidelity and preserves their innate aesthetic essence. By bridging the gap between generative models and artistic finesse, CreativeSynth becomes a custom digital palette.
PDF111December 15, 2024