ChatPaper.aiChatPaper

Magic Fixup : Rationaliser l'édition de photos en observant des vidéos dynamiques

Magic Fixup: Streamlining Photo Editing by Watching Dynamic Videos

March 19, 2024
Auteurs: Hadi Alzayer, Zhihao Xia, Xuaner Zhang, Eli Shechtman, Jia-Bin Huang, Michael Gharbi
cs.AI

Résumé

Nous proposons un modèle génératif qui, étant donné une image grossièrement éditée, synthétise une sortie photoréaliste respectant la disposition prescrite. Notre méthode transfère les détails fins de l'image originale et préserve l'identité de ses parties. Pourtant, elle l'adapte à l'éclairage et au contexte définis par la nouvelle disposition. Notre idée clé est que les vidéos constituent une source puissante de supervision pour cette tâche : les objets et les mouvements de caméra fournissent de nombreuses observations sur la manière dont le monde change avec le point de vue, l'éclairage et les interactions physiques. Nous construisons un ensemble de données d'images dans lequel chaque échantillon est une paire de trames source et cible extraites de la même vidéo à des intervalles de temps choisis aléatoirement. Nous déformons la trame source vers la cible en utilisant deux modèles de mouvement qui imitent les modifications utilisateur attendues lors des tests. Nous supervisons notre modèle pour traduire l'image déformée en la vérité terrain, en partant d'un modèle de diffusion pré-entraîné. La conception de notre modèle permet explicitement le transfert de détails fins de la trame source à l'image générée, tout en suivant de près la disposition spécifiée par l'utilisateur. Nous montrons qu'en utilisant des segmentations simples et des manipulations 2D grossières, nous pouvons synthétiser une édition photoréaliste fidèle à l'entrée de l'utilisateur tout en traitant des effets de second ordre comme l'harmonisation de l'éclairage et les interactions physiques entre les objets édités.
English
We propose a generative model that, given a coarsely edited image, synthesizes a photorealistic output that follows the prescribed layout. Our method transfers fine details from the original image and preserves the identity of its parts. Yet, it adapts it to the lighting and context defined by the new layout. Our key insight is that videos are a powerful source of supervision for this task: objects and camera motions provide many observations of how the world changes with viewpoint, lighting, and physical interactions. We construct an image dataset in which each sample is a pair of source and target frames extracted from the same video at randomly chosen time intervals. We warp the source frame toward the target using two motion models that mimic the expected test-time user edits. We supervise our model to translate the warped image into the ground truth, starting from a pretrained diffusion model. Our model design explicitly enables fine detail transfer from the source frame to the generated image, while closely following the user-specified layout. We show that by using simple segmentations and coarse 2D manipulations, we can synthesize a photorealistic edit faithful to the user's input while addressing second-order effects like harmonizing the lighting and physical interactions between edited objects.

Summary

AI-Generated Summary

PDF151December 15, 2024