ChatPaper.aiChatPaper

制御可能な合成のための編集可能な画像要素

Editable Image Elements for Controllable Synthesis

April 24, 2024
著者: Jiteng Mu, Michaël Gharbi, Richard Zhang, Eli Shechtman, Nuno Vasconcelos, Xiaolong Wang, Taesung Park
cs.AI

要旨

拡散モデルはテキストガイド合成タスクにおいて大きな進展を遂げてきました。しかし、ユーザー提供の画像を編集することは依然として課題が残っています。なぜなら、拡散モデルの高次元ノイズ入力空間は、画像の反転や空間的編集に自然に適しているわけではないからです。本研究では、拡散モデルを用いて入力画像の空間的編集を促進する画像表現を提案します。具体的には、入力画像を忠実に再構築できる「画像要素」にエンコードする方法を学習します。これらの要素はユーザーが直感的に編集でき、拡散モデルによって現実的な画像にデコードされます。我々は、オブジェクトのサイズ変更、再配置、ドラッグ、遮蔽除去、削除、バリエーション、画像合成など、様々な画像編集タスクにおいて、この表現の有効性を示します。プロジェクトページ: https://jitengmu.github.io/Editable_Image_Elements/
English
Diffusion models have made significant advances in text-guided synthesis tasks. However, editing user-provided images remains challenging, as the high dimensional noise input space of diffusion models is not naturally suited for image inversion or spatial editing. In this work, we propose an image representation that promotes spatial editing of input images using a diffusion model. Concretely, we learn to encode an input into "image elements" that can faithfully reconstruct an input image. These elements can be intuitively edited by a user, and are decoded by a diffusion model into realistic images. We show the effectiveness of our representation on various image editing tasks, such as object resizing, rearrangement, dragging, de-occlusion, removal, variation, and image composition. Project page: https://jitengmu.github.io/Editable_Image_Elements/

Summary

AI-Generated Summary

PDF121December 15, 2024