マジックフィックスアップ:動的ビデオ観察による写真編集の効率化
Magic Fixup: Streamlining Photo Editing by Watching Dynamic Videos
March 19, 2024
著者: Hadi Alzayer, Zhihao Xia, Xuaner Zhang, Eli Shechtman, Jia-Bin Huang, Michael Gharbi
cs.AI
要旨
粗編集された画像を入力として、指定されたレイアウトに従ったフォトリアルな出力を合成する生成モデルを提案します。本手法は、元画像から細部を転写し、その部分の同一性を保持します。しかしながら、新しいレイアウトで定義された照明やコンテキストに適応させます。本手法の重要な洞察は、ビデオがこのタスクにとって強力な教師信号源であるということです。物体やカメラの動きは、視点、照明、物理的相互作用によって世界がどのように変化するかを多くの観測データとして提供します。我々は、各サンプルが同じビデオからランダムな時間間隔で抽出されたソースフレームとターゲットフレームのペアで構成される画像データセットを構築します。テスト時のユーザー編集を模倣する2つのモーションモデルを使用して、ソースフレームをターゲットに向かってワープさせます。事前学習済みの拡散モデルを出発点として、ワープされた画像をグラウンドトゥルースに変換するようにモデルを教師します。本モデルの設計は、ユーザー指定のレイアウトに忠実に従いながら、ソースフレームから生成画像への細部の転送を明示的に可能にします。単純なセグメンテーションと粗い2D操作を使用することで、ユーザーの入力に忠実なフォトリアルな編集を合成しつつ、照明の調和や編集されたオブジェクト間の物理的相互作用といった二次的な効果に対処できることを示します。
English
We propose a generative model that, given a coarsely edited image,
synthesizes a photorealistic output that follows the prescribed layout. Our
method transfers fine details from the original image and preserves the
identity of its parts. Yet, it adapts it to the lighting and context defined by
the new layout. Our key insight is that videos are a powerful source of
supervision for this task: objects and camera motions provide many observations
of how the world changes with viewpoint, lighting, and physical interactions.
We construct an image dataset in which each sample is a pair of source and
target frames extracted from the same video at randomly chosen time intervals.
We warp the source frame toward the target using two motion models that mimic
the expected test-time user edits. We supervise our model to translate the
warped image into the ground truth, starting from a pretrained diffusion model.
Our model design explicitly enables fine detail transfer from the source frame
to the generated image, while closely following the user-specified layout. We
show that by using simple segmentations and coarse 2D manipulations, we can
synthesize a photorealistic edit faithful to the user's input while addressing
second-order effects like harmonizing the lighting and physical interactions
between edited objects.