CreativeSynth: マルチモーダル拡散に基づく視覚芸術の創造的ブレンドと合成
CreativeSynth: Creative Blending and Synthesis of Visual Arts based on Multimodal Diffusion
January 25, 2024
著者: Nisha Huang, Weiming Dong, Yuxin Zhang, Fan Tang, Ronghui Li, Chongyang Ma, Xiu Li, Changsheng Xu
cs.AI
要旨
大規模なテキストから画像を生成するモデルは目覚ましい進歩を遂げ、多様な高品質な画像を合成する能力を示してきました。しかし、これらのモデルを芸術的な画像編集に適応させるには、2つの重要な課題があります。まず、ユーザーは入力画像の視覚的要素を細部まで詳細に記述するテキストプロンプトを作成するのに苦労します。次に、一般的なモデルは特定の領域を変更する際に、全体の芸術的スタイルをしばしば損ない、一貫性のある美学的に統一された作品を達成することを困難にします。これらの課題を克服するため、我々は拡散モデルに基づく革新的な統一フレームワークCreativeSynthを構築しました。このモデルは、芸術的画像生成の分野でマルチモーダル入力を調整し、マルチタスクを実行する能力を備えています。カスタマイズされたアテンションメカニズムとマルチモーダル特徴を統合することで、CreativeSynthは反転とリアルタイムスタイル転送を通じて現実世界の意味内容を芸術の領域に取り込むことを可能にします。これにより、元のモデルパラメータの整合性を維持しながら、画像のスタイルと内容を精密に操作することができます。厳密な定性的および定量的評価により、CreativeSynthが芸術的画像の忠実度を向上させ、その内在する美学的本質を保持する点で優れていることが示されています。生成モデルと芸術的洗練の間のギャップを埋めることで、CreativeSynthはカスタムデジタルパレットとなります。
English
Large-scale text-to-image generative models have made impressive strides,
showcasing their ability to synthesize a vast array of high-quality images.
However, adapting these models for artistic image editing presents two
significant challenges. Firstly, users struggle to craft textual prompts that
meticulously detail visual elements of the input image. Secondly, prevalent
models, when effecting modifications in specific zones, frequently disrupt the
overall artistic style, complicating the attainment of cohesive and
aesthetically unified artworks. To surmount these obstacles, we build the
innovative unified framework CreativeSynth, which is based on a diffusion model
with the ability to coordinate multimodal inputs and multitask in the field of
artistic image generation. By integrating multimodal features with customized
attention mechanisms, CreativeSynth facilitates the importation of real-world
semantic content into the domain of art through inversion and real-time style
transfer. This allows for the precise manipulation of image style and content
while maintaining the integrity of the original model parameters. Rigorous
qualitative and quantitative evaluations underscore that CreativeSynth excels
in enhancing artistic images' fidelity and preserves their innate aesthetic
essence. By bridging the gap between generative models and artistic finesse,
CreativeSynth becomes a custom digital palette.