生成的フォトモンタージュ
Generative Photomontage
August 13, 2024
著者: Sean J. Liu, Nupur Kumari, Ariel Shamir, Jun-Yan Zhu
cs.AI
要旨
テキストから画像を生成するモデルは、画像作成において強力なツールです。しかし、その生成プロセスはサイコロを振るようなものであり、ユーザーが望むすべてを捉えた一枚の画像を実現することは困難です。本論文では、生成された画像のさまざまな部分を合成することで、望ましい画像を作成するためのフレームワークを提案します。これは本質的に、生成フォトモンタージュを形成するものです。ControlNetによって同じ入力条件と異なるシードで生成された一連の画像が与えられた場合、ユーザーはブラシストロークインターフェースを使用して、生成結果から望ましい部分を選択できます。私たちは、ユーザーのブラシストロークを取り込み、拡散特徴空間におけるグラフベースの最適化を使用して生成された画像をセグメント化し、その後、新しい特徴空間ブレンディング手法によってセグメント化された領域を合成する新技術を導入します。私たちの手法は、ユーザーが選択した領域を忠実に保持しつつ、それらを調和して合成します。この柔軟なフレームワークが、新しい外観の組み合わせの生成、誤った形状やアーティファクトの修正、プロンプトの整合性の向上など、多くのアプリケーションに使用できることを示します。各アプリケーションにおいて説得力のある結果を示し、私たちの手法が既存の画像ブレンディング手法やさまざまなベースラインを上回ることを実証します。
English
Text-to-image models are powerful tools for image creation. However, the
generation process is akin to a dice roll and makes it difficult to achieve a
single image that captures everything a user wants. In this paper, we propose a
framework for creating the desired image by compositing it from various parts
of generated images, in essence forming a Generative Photomontage. Given a
stack of images generated by ControlNet using the same input condition and
different seeds, we let users select desired parts from the generated results
using a brush stroke interface. We introduce a novel technique that takes in
the user's brush strokes, segments the generated images using a graph-based
optimization in diffusion feature space, and then composites the segmented
regions via a new feature-space blending method. Our method faithfully
preserves the user-selected regions while compositing them harmoniously. We
demonstrate that our flexible framework can be used for many applications,
including generating new appearance combinations, fixing incorrect shapes and
artifacts, and improving prompt alignment. We show compelling results for each
application and demonstrate that our method outperforms existing image blending
methods and various baselines.Summary
AI-Generated Summary