Magic Fixup: Ottimizzazione del Fotoritocco attraverso l'Osservazione di Video Dinamici
Magic Fixup: Streamlining Photo Editing by Watching Dynamic Videos
March 19, 2024
Autori: Hadi Alzayer, Zhihao Xia, Xuaner Zhang, Eli Shechtman, Jia-Bin Huang, Michael Gharbi
cs.AI
Abstract
Proponiamo un modello generativo che, data un'immagine modificata in modo approssimativo, sintetizza un output fotorealistico che segue il layout prescritto. Il nostro metodo trasferisce i dettagli fini dall'immagine originale e preserva l'identità delle sue parti. Tuttavia, la adatta all'illuminazione e al contesto definiti dal nuovo layout. La nostra intuizione chiave è che i video rappresentano una potente fonte di supervisione per questo compito: oggetti e movimenti della telecamera forniscono molte osservazioni su come il mondo cambia con il punto di vista, l'illuminazione e le interazioni fisiche. Costruiamo un dataset di immagini in cui ogni campione è una coppia di frame sorgente e target estratti dallo stesso video a intervalli di tempo scelti casualmente. Deformiamo il frame sorgente verso il target utilizzando due modelli di movimento che imitano le modifiche attese dall'utente durante il test. Supervisioniamo il nostro modello per tradurre l'immagine deformata nella verità di riferimento, partendo da un modello di diffusione pre-addestrato. Il design del nostro modello consente esplicitamente il trasferimento di dettagli fini dal frame sorgente all'immagine generata, seguendo da vicino il layout specificato dall'utente. Dimostriamo che, utilizzando semplici segmentazioni e manipolazioni 2D approssimative, possiamo sintetizzare una modifica fotorealistica fedele all'input dell'utente, affrontando effetti di secondo ordine come l'armonizzazione dell'illuminazione e le interazioni fisiche tra gli oggetti modificati.
English
We propose a generative model that, given a coarsely edited image,
synthesizes a photorealistic output that follows the prescribed layout. Our
method transfers fine details from the original image and preserves the
identity of its parts. Yet, it adapts it to the lighting and context defined by
the new layout. Our key insight is that videos are a powerful source of
supervision for this task: objects and camera motions provide many observations
of how the world changes with viewpoint, lighting, and physical interactions.
We construct an image dataset in which each sample is a pair of source and
target frames extracted from the same video at randomly chosen time intervals.
We warp the source frame toward the target using two motion models that mimic
the expected test-time user edits. We supervise our model to translate the
warped image into the ground truth, starting from a pretrained diffusion model.
Our model design explicitly enables fine detail transfer from the source frame
to the generated image, while closely following the user-specified layout. We
show that by using simple segmentations and coarse 2D manipulations, we can
synthesize a photorealistic edit faithful to the user's input while addressing
second-order effects like harmonizing the lighting and physical interactions
between edited objects.