아티스트: 훈련 없이 미학적으로 제어 가능한 텍스트 기반 스타일화
Artist: Aesthetically Controllable Text-Driven Stylization without Training
July 22, 2024
저자: Ruixiang Jiang, Changwen Chen
cs.AI
초록
디퓨전 모델은 노이즈 제거 과정에서 콘텐츠와 스타일 생성을 동시에 처리하기 때문에, 스타일화 작업에 직접 적용할 경우 원치 않는 콘텐츠 수정이 발생합니다. 기존 방법들은 디퓨전 모델을 효과적으로 제어하여 스타일화에 필요한 미적 수준의 요구사항을 충족시키는 데 어려움을 겪습니다. 본 논문에서는 사전 학습된 디퓨전 모델의 콘텐츠와 스타일 생성을 미적 관점에서 제어하는 학습이 필요 없는 접근 방식인 Artist를 소개합니다. 우리의 핵심 통찰은 콘텐츠와 스타일의 노이즈 제거를 별도의 디퓨전 프로세스로 분리하면서도 이들 간에 정보를 공유하는 것입니다. 우리는 스타일과 무관한 콘텐츠 생성을 억제하여 조화로운 스타일화 결과를 도출하는 간단하지만 효과적인 콘텐츠 및 스타일 제어 방법을 제안합니다. 광범위한 실험을 통해 우리의 방법이 미적 수준의 스타일화 요구사항을 충족시키고, 콘텐츠 이미지의 복잡한 세부 사항을 보존하며 스타일 프롬프트와 잘 조화를 이루는 데 탁월함을 입증했습니다. 또한, 다양한 관점에서 스타일화 강도를 높은 수준으로 제어할 수 있음을 보여줍니다. 코드는 공개될 예정이며, 프로젝트 홈페이지는 https://DiffusionArtist.github.io입니다.
English
Diffusion models entangle content and style generation during the denoising
process, leading to undesired content modification when directly applied to
stylization tasks. Existing methods struggle to effectively control the
diffusion model to meet the aesthetic-level requirements for stylization. In
this paper, we introduce Artist, a training-free approach that
aesthetically controls the content and style generation of a pretrained
diffusion model for text-driven stylization. Our key insight is to disentangle
the denoising of content and style into separate diffusion processes while
sharing information between them. We propose simple yet effective content and
style control methods that suppress style-irrelevant content generation,
resulting in harmonious stylization results. Extensive experiments demonstrate
that our method excels at achieving aesthetic-level stylization requirements,
preserving intricate details in the content image and aligning well with the
style prompt. Furthermore, we showcase the highly controllability of the
stylization strength from various perspectives. Code will be released, project
home page: https://DiffusionArtist.github.ioSummary
AI-Generated Summary