ChatPaper.aiChatPaper

Magic Fixup: Optimización de la Edición de Fotos mediante la Observación de Videos Dinámicos

Magic Fixup: Streamlining Photo Editing by Watching Dynamic Videos

March 19, 2024
Autores: Hadi Alzayer, Zhihao Xia, Xuaner Zhang, Eli Shechtman, Jia-Bin Huang, Michael Gharbi
cs.AI

Resumen

Proponemos un modelo generativo que, dada una imagen editada de manera aproximada, sintetiza una salida fotorrealista que sigue el diseño especificado. Nuestro método transfiere detalles finos de la imagen original y preserva la identidad de sus partes. Sin embargo, la adapta a la iluminación y el contexto definidos por el nuevo diseño. Nuestra idea clave es que los videos son una fuente poderosa de supervisión para esta tarea: los objetos y los movimientos de la cámara proporcionan múltiples observaciones de cómo el mundo cambia con el punto de vista, la iluminación y las interacciones físicas. Construimos un conjunto de datos de imágenes en el que cada muestra es un par de fotogramas de origen y destino extraídos del mismo video en intervalos de tiempo elegidos al azar. Deformamos el fotograma de origen hacia el objetivo utilizando dos modelos de movimiento que imitan las ediciones esperadas del usuario en tiempo de prueba. Supervisamos nuestro modelo para traducir la imagen deformada en la verdad de referencia, partiendo de un modelo de difusión preentrenado. El diseño de nuestro modelo permite explícitamente la transferencia de detalles finos desde el fotograma de origen a la imagen generada, siguiendo de cerca el diseño especificado por el usuario. Demostramos que, mediante el uso de segmentaciones simples y manipulaciones 2D aproximadas, podemos sintetizar una edición fotorrealista fiel a la entrada del usuario, abordando efectos de segundo orden como la armonización de la iluminación y las interacciones físicas entre los objetos editados.
English
We propose a generative model that, given a coarsely edited image, synthesizes a photorealistic output that follows the prescribed layout. Our method transfers fine details from the original image and preserves the identity of its parts. Yet, it adapts it to the lighting and context defined by the new layout. Our key insight is that videos are a powerful source of supervision for this task: objects and camera motions provide many observations of how the world changes with viewpoint, lighting, and physical interactions. We construct an image dataset in which each sample is a pair of source and target frames extracted from the same video at randomly chosen time intervals. We warp the source frame toward the target using two motion models that mimic the expected test-time user edits. We supervise our model to translate the warped image into the ground truth, starting from a pretrained diffusion model. Our model design explicitly enables fine detail transfer from the source frame to the generated image, while closely following the user-specified layout. We show that by using simple segmentations and coarse 2D manipulations, we can synthesize a photorealistic edit faithful to the user's input while addressing second-order effects like harmonizing the lighting and physical interactions between edited objects.

Summary

AI-Generated Summary

PDF151December 15, 2024