생성적 포토몽타주
Generative Photomontage
August 13, 2024
저자: Sean J. Liu, Nupur Kumari, Ariel Shamir, Jun-Yan Zhu
cs.AI
초록
이미지 생성을 위한 텍스트-이미지 모델은 강력한 도구입니다. 그러나 생성 과정은 주사위를 굴리는 것과 유사하며 사용자가 원하는 모든 것을 담은 단일 이미지를 얻기 어렵게 만듭니다. 본 논문에서는 사용자가 원하는 이미지를 생성하기 위한 프레임워크를 제안합니다. 이 프레임워크는 생성된 이미지의 다양한 부분에서 합성하여 사용자가 원하는 이미지를 만들어내는 것으로, 본질적으로 생성적 포토몽타주를 형성합니다. 동일한 입력 조건을 사용하여 ControlNet에 의해 생성된 이미지 스택이 주어지면, 사용자는 브러시 스트로크 인터페이스를 사용하여 생성된 결과물에서 원하는 부분을 선택할 수 있습니다. 우리는 사용자의 브러시 스트로크를 수용하고, 확산 특성 공간에서 그래프 기반 최적화를 사용하여 생성된 이미지를 세분화한 후, 새로운 특성 공간 블렌딩 방법을 통해 세분화된 영역을 합성하는 새로운 기술을 소개합니다. 우리의 방법은 사용자가 선택한 영역을 정확하게 보존하면서 조화롭게 합성합니다. 우리는 유연한 프레임워크가 새로운 외관 조합 생성, 잘못된 모양 및 아티팩트 수정, 그리고 프롬프트 정렬 개선을 포함한 여러 응용 프로그램에 사용될 수 있음을 보여줍니다. 각 응용 프로그램에 대한 설득력 있는 결과를 보여주며, 우리의 방법이 기존의 이미지 블렌딩 방법 및 다양한 기준선을 능가함을 시연합니다.
English
Text-to-image models are powerful tools for image creation. However, the
generation process is akin to a dice roll and makes it difficult to achieve a
single image that captures everything a user wants. In this paper, we propose a
framework for creating the desired image by compositing it from various parts
of generated images, in essence forming a Generative Photomontage. Given a
stack of images generated by ControlNet using the same input condition and
different seeds, we let users select desired parts from the generated results
using a brush stroke interface. We introduce a novel technique that takes in
the user's brush strokes, segments the generated images using a graph-based
optimization in diffusion feature space, and then composites the segmented
regions via a new feature-space blending method. Our method faithfully
preserves the user-selected regions while compositing them harmoniously. We
demonstrate that our flexible framework can be used for many applications,
including generating new appearance combinations, fixing incorrect shapes and
artifacts, and improving prompt alignment. We show compelling results for each
application and demonstrate that our method outperforms existing image blending
methods and various baselines.Summary
AI-Generated Summary