アーティスト: トレーニング不要で美的に制御可能なテキスト駆動スタイライゼーション
Artist: Aesthetically Controllable Text-Driven Stylization without Training
July 22, 2024
著者: Ruixiang Jiang, Changwen Chen
cs.AI
要旨
拡散モデルは、ノイズ除去プロセスにおいてコンテンツとスタイルの生成を絡み合わせるため、スタイライゼーションタスクに直接適用すると望ましくないコンテンツの変更が生じます。既存の手法では、拡散モデルを効果的に制御してスタイライゼーションの美的レベル要件を満たすことが困難です。本論文では、事前学習済みの拡散モデルのコンテンツとスタイル生成を美的に制御する、学習不要のアプローチ「Artist」を提案します。私たちの重要な洞察は、コンテンツとスタイルのノイズ除去を別々の拡散プロセスに分離しつつ、それらの間で情報を共有することです。スタイルと無関係なコンテンツ生成を抑制する、シンプルでありながら効果的なコンテンツとスタイル制御手法を提案し、調和のとれたスタイライゼーション結果を実現します。大規模な実験により、私たちの手法が美的レベルのスタイライゼーション要件を満たし、コンテンツ画像の細部を保持し、スタイルプロンプトと良好に整合することを実証します。さらに、さまざまな観点からスタイライゼーションの強度を高度に制御可能であることを示します。コードは公開され、プロジェクトホームページはhttps://DiffusionArtist.github.ioです。
English
Diffusion models entangle content and style generation during the denoising
process, leading to undesired content modification when directly applied to
stylization tasks. Existing methods struggle to effectively control the
diffusion model to meet the aesthetic-level requirements for stylization. In
this paper, we introduce Artist, a training-free approach that
aesthetically controls the content and style generation of a pretrained
diffusion model for text-driven stylization. Our key insight is to disentangle
the denoising of content and style into separate diffusion processes while
sharing information between them. We propose simple yet effective content and
style control methods that suppress style-irrelevant content generation,
resulting in harmonious stylization results. Extensive experiments demonstrate
that our method excels at achieving aesthetic-level stylization requirements,
preserving intricate details in the content image and aligning well with the
style prompt. Furthermore, we showcase the highly controllability of the
stylization strength from various perspectives. Code will be released, project
home page: https://DiffusionArtist.github.ioSummary
AI-Generated Summary