Magic Fixup: Stroomlijnen van Foto-bewerking door het Observeren van Dynamische Video's
Magic Fixup: Streamlining Photo Editing by Watching Dynamic Videos
March 19, 2024
Auteurs: Hadi Alzayer, Zhihao Xia, Xuaner Zhang, Eli Shechtman, Jia-Bin Huang, Michael Gharbi
cs.AI
Samenvatting
We stellen een generatief model voor dat, gegeven een grof bewerkte afbeelding, een fotorealistische uitvoer synthetiseert die de voorgeschreven lay-out volgt. Onze methode transfereert fijne details van de originele afbeelding en behoudt de identiteit van de onderdelen ervan. Tegelijkertijd past het deze aan aan de belichting en context die door de nieuwe lay-out worden gedefinieerd. Onze belangrijkste inzicht is dat video's een krachtige bron van supervisie zijn voor deze taak: objecten en camerabewegingen bieden veel observaties van hoe de wereld verandert met gezichtspunt, belichting en fysieke interacties. We construeren een afbeeldingsdataset waarin elk monster een paar bron- en doelbeelden is die uit dezelfde video zijn geëxtraheerd op willekeurig gekozen tijdsintervallen. We vervormen het bronbeeld naar het doelbeeld toe met behulp van twee bewegingsmodellen die de verwachte testtijdgebruikersbewerkingen nabootsen. We begeleiden ons model om het vervormde beeld om te zetten in de grondwaarheid, uitgaande van een vooraf getraind diffusiemodel. Ons modelontwerp maakt expliciet de overdracht van fijne details van het bronbeeld naar de gegenereerde afbeelding mogelijk, terwijl het nauwgezet de door de gebruiker gespecificeerde lay-out volgt. We tonen aan dat we door gebruik te maken van eenvoudige segmentaties en grove 2D-manipulaties een fotorealistische bewerking kunnen synthetiseren die trouw is aan de invoer van de gebruiker, terwijl we tweede-ordeeffecten aanpakken, zoals het harmoniseren van de belichting en fysieke interacties tussen bewerkte objecten.
English
We propose a generative model that, given a coarsely edited image,
synthesizes a photorealistic output that follows the prescribed layout. Our
method transfers fine details from the original image and preserves the
identity of its parts. Yet, it adapts it to the lighting and context defined by
the new layout. Our key insight is that videos are a powerful source of
supervision for this task: objects and camera motions provide many observations
of how the world changes with viewpoint, lighting, and physical interactions.
We construct an image dataset in which each sample is a pair of source and
target frames extracted from the same video at randomly chosen time intervals.
We warp the source frame toward the target using two motion models that mimic
the expected test-time user edits. We supervise our model to translate the
warped image into the ground truth, starting from a pretrained diffusion model.
Our model design explicitly enables fine detail transfer from the source frame
to the generated image, while closely following the user-specified layout. We
show that by using simple segmentations and coarse 2D manipulations, we can
synthesize a photorealistic edit faithful to the user's input while addressing
second-order effects like harmonizing the lighting and physical interactions
between edited objects.