Refletant la réalité : Permettre aux modèles de diffusion de produire des reflets miroirs fidèles
Reflecting Reality: Enabling Diffusion Models to Produce Faithful Mirror Reflections
September 23, 2024
Auteurs: Ankit Dhiman, Manan Shah, Rishubh Parihar, Yash Bhalgat, Lokesh R Boregowda, R Venkatesh Babu
cs.AI
Résumé
Nous abordons le problème de générer des réflexions de miroir hautement réalistes et plausibles en utilisant des modèles génératifs basés sur la diffusion. Nous formulons ce problème comme une tâche de complétion d'image, permettant un contrôle accru de l'utilisateur sur le placement des miroirs pendant le processus de génération. Pour cela, nous créons SynMirror, un ensemble de données à grande échelle de scènes synthétiques diverses avec des objets placés devant des miroirs. SynMirror contient environ 198 000 échantillons rendus à partir de 66 000 objets 3D uniques, ainsi que leurs cartes de profondeur associées, cartes normales et masques de segmentation par instance, pour capturer les propriétés géométriques pertinentes de la scène. En utilisant cet ensemble de données, nous proposons une nouvelle méthode de complétion conditionnée par la profondeur appelée MirrorFusion, qui génère des réflexions de miroir géométriquement cohérentes et photoréalistes de haute qualité à partir d'une image d'entrée et d'un masque représentant la région du miroir. MirrorFusion surpasse les méthodes de pointe sur SynMirror, comme le démontrent des analyses quantitatives et qualitatives approfondies. À notre connaissance, nous sommes les premiers à aborder avec succès le problème difficile de générer des réflexions de miroir contrôlées et fidèles d'un objet dans une scène en utilisant des modèles basés sur la diffusion. SynMirror et MirrorFusion ouvrent de nouvelles perspectives pour l'édition d'images et les applications de réalité augmentée à la fois pour les praticiens et les chercheurs.
English
We tackle the problem of generating highly realistic and plausible mirror
reflections using diffusion-based generative models. We formulate this problem
as an image inpainting task, allowing for more user control over the placement
of mirrors during the generation process. To enable this, we create SynMirror,
a large-scale dataset of diverse synthetic scenes with objects placed in front
of mirrors. SynMirror contains around 198K samples rendered from 66K unique 3D
objects, along with their associated depth maps, normal maps and instance-wise
segmentation masks, to capture relevant geometric properties of the scene.
Using this dataset, we propose a novel depth-conditioned inpainting method
called MirrorFusion, which generates high-quality geometrically consistent and
photo-realistic mirror reflections given an input image and a mask depicting
the mirror region. MirrorFusion outperforms state-of-the-art methods on
SynMirror, as demonstrated by extensive quantitative and qualitative analysis.
To the best of our knowledge, we are the first to successfully tackle the
challenging problem of generating controlled and faithful mirror reflections of
an object in a scene using diffusion based models. SynMirror and MirrorFusion
open up new avenues for image editing and augmented reality applications for
practitioners and researchers alike.Summary
AI-Generated Summary