Magic Fixup: Simplificando a Edição de Fotos ao Observar Vídeos Dinâmicos
Magic Fixup: Streamlining Photo Editing by Watching Dynamic Videos
March 19, 2024
Autores: Hadi Alzayer, Zhihao Xia, Xuaner Zhang, Eli Shechtman, Jia-Bin Huang, Michael Gharbi
cs.AI
Resumo
Propomos um modelo generativo que, dada uma imagem editada de forma grosseira, sintetiza uma saída fotorrealista que segue o layout prescrito. Nosso método transfere detalhes finos da imagem original e preserva a identidade de suas partes. No entanto, adapta-a à iluminação e ao contexto definidos pelo novo layout. Nossa principal percepção é que os vídeos são uma fonte poderosa de supervisão para essa tarefa: objetos e movimentos da câmera fornecem diversas observações de como o mundo muda com o ponto de vista, a iluminação e as interações físicas. Construímos um conjunto de dados de imagens no qual cada amostra é um par de quadros de origem e destino extraídos do mesmo vídeo em intervalos de tempo escolhidos aleatoriamente. Deformamos o quadro de origem em direção ao destino usando dois modelos de movimento que imitam as edições esperadas do usuário no momento do teste. Supervisionamos nosso modelo para traduzir a imagem deformada na verdade fundamental, partindo de um modelo de difusão pré-treinado. O design do nosso modelo permite explicitamente a transferência de detalhes finos do quadro de origem para a imagem gerada, ao mesmo tempo que segue de perto o layout especificado pelo usuário. Mostramos que, ao usar segmentações simples e manipulações 2D grosseiras, podemos sintetizar uma edição fotorrealista fiel à entrada do usuário, abordando efeitos de segunda ordem, como harmonizar a iluminação e as interações físicas entre os objetos editados.
English
We propose a generative model that, given a coarsely edited image,
synthesizes a photorealistic output that follows the prescribed layout. Our
method transfers fine details from the original image and preserves the
identity of its parts. Yet, it adapts it to the lighting and context defined by
the new layout. Our key insight is that videos are a powerful source of
supervision for this task: objects and camera motions provide many observations
of how the world changes with viewpoint, lighting, and physical interactions.
We construct an image dataset in which each sample is a pair of source and
target frames extracted from the same video at randomly chosen time intervals.
We warp the source frame toward the target using two motion models that mimic
the expected test-time user edits. We supervise our model to translate the
warped image into the ground truth, starting from a pretrained diffusion model.
Our model design explicitly enables fine detail transfer from the source frame
to the generated image, while closely following the user-specified layout. We
show that by using simple segmentations and coarse 2D manipulations, we can
synthesize a photorealistic edit faithful to the user's input while addressing
second-order effects like harmonizing the lighting and physical interactions
between edited objects.