ChatPaper.aiChatPaper

Magisches Fixup: Optimierung der Fotobearbeitung durch Beobachtung von dynamischen Videos

Magic Fixup: Streamlining Photo Editing by Watching Dynamic Videos

March 19, 2024
papers.authors: Hadi Alzayer, Zhihao Xia, Xuaner Zhang, Eli Shechtman, Jia-Bin Huang, Michael Gharbi
cs.AI

papers.abstract

Wir schlagen ein generatives Modell vor, das, ausgehend von einem grob bearbeiteten Bild, eine fotorealistische Ausgabe synthetisiert, die dem vorgegebenen Layout folgt. Unsere Methode überträgt feine Details vom Originalbild und bewahrt die Identität seiner Teile. Dennoch passt sie es an die Beleuchtung und den Kontext an, die durch das neue Layout definiert sind. Unser Schlüsselerkenntnis ist, dass Videos eine leistungsstarke Quelle der Überwachung für diese Aufgabe sind: Objekte und Kamerabewegungen liefern viele Beobachtungen darüber, wie sich die Welt mit Blickwinkel, Beleuchtung und physischen Interaktionen verändert. Wir erstellen einen Bild-Datensatz, bei dem jedes Beispiel ein Paar von Quell- und Zielbildern ist, die aus demselben Video zu zufällig gewählten Zeitintervallen extrahiert wurden. Wir verzerren das Quellbild in Richtung des Ziels unter Verwendung von zwei Bewegungsmodellen, die die erwarteten Benutzerbearbeitungen zur Testzeit nachahmen. Wir überwachen unser Modell, um das verformte Bild in die Ground Truth zu übersetzen, ausgehend von einem vorab trainierten Diffusionsmodell. Das Design unseres Modells ermöglicht ausdrücklich den Transfer feiner Details vom Quellbild zum generierten Bild, während es dem vom Benutzer angegebenen Layout eng folgt. Wir zeigen, dass wir durch die Verwendung einfacher Segmentierungen und grober 2D-Manipulationen eine fotorealistische Bearbeitung erstellen können, die der Eingabe des Benutzers treu bleibt und dabei Effekte der zweiten Ordnung wie die Harmonisierung der Beleuchtung und physischen Interaktionen zwischen bearbeiteten Objekten berücksichtigt.
English
We propose a generative model that, given a coarsely edited image, synthesizes a photorealistic output that follows the prescribed layout. Our method transfers fine details from the original image and preserves the identity of its parts. Yet, it adapts it to the lighting and context defined by the new layout. Our key insight is that videos are a powerful source of supervision for this task: objects and camera motions provide many observations of how the world changes with viewpoint, lighting, and physical interactions. We construct an image dataset in which each sample is a pair of source and target frames extracted from the same video at randomly chosen time intervals. We warp the source frame toward the target using two motion models that mimic the expected test-time user edits. We supervise our model to translate the warped image into the ground truth, starting from a pretrained diffusion model. Our model design explicitly enables fine detail transfer from the source frame to the generated image, while closely following the user-specified layout. We show that by using simple segmentations and coarse 2D manipulations, we can synthesize a photorealistic edit faithful to the user's input while addressing second-order effects like harmonizing the lighting and physical interactions between edited objects.
PDF151December 15, 2024