Riflettere la realtà: Abilitare i modelli di diffusione a produrre fedeli riflessi specchianti
Reflecting Reality: Enabling Diffusion Models to Produce Faithful Mirror Reflections
September 23, 2024
Autori: Ankit Dhiman, Manan Shah, Rishubh Parihar, Yash Bhalgat, Lokesh R Boregowda, R Venkatesh Babu
cs.AI
Abstract
Affrontiamo il problema della generazione di riflessi specchianti altamente realistici e plausibili utilizzando modelli generativi basati sulla diffusione. Formuliamo questo problema come un compito di inpainting di immagini, consentendo un maggiore controllo dell'utente sulla disposizione degli specchi durante il processo di generazione. Per consentire ciò, creiamo SynMirror, un dataset su larga scala di scene sintetiche diverse con oggetti posizionati di fronte agli specchi. SynMirror contiene circa 198K campioni renderizzati da 66K oggetti 3D unici, insieme alle relative mappe di profondità, mappe normali e maschere di segmentazione per istanze, per catturare le proprietà geometriche rilevanti della scena. Utilizzando questo dataset, proponiamo un nuovo metodo di inpainting condizionato dalla profondità chiamato MirrorFusion, che genera riflessi specchianti di alta qualità geometricamente coerenti e fotorealistici dato un'immagine di input e una maschera che rappresenta la regione dello specchio. MirrorFusion supera i metodi all'avanguardia su SynMirror, come dimostrato da un'ampia analisi quantitativa e qualitativa. Per quanto ne sappiamo, siamo i primi a affrontare con successo il difficile problema della generazione controllata e fedele di riflessi di un oggetto in una scena utilizzando modelli basati sulla diffusione. SynMirror e MirrorFusion aprono nuove possibilità per l'editing di immagini e le applicazioni di realtà aumentata sia per i professionisti che per i ricercatori.
English
We tackle the problem of generating highly realistic and plausible mirror
reflections using diffusion-based generative models. We formulate this problem
as an image inpainting task, allowing for more user control over the placement
of mirrors during the generation process. To enable this, we create SynMirror,
a large-scale dataset of diverse synthetic scenes with objects placed in front
of mirrors. SynMirror contains around 198K samples rendered from 66K unique 3D
objects, along with their associated depth maps, normal maps and instance-wise
segmentation masks, to capture relevant geometric properties of the scene.
Using this dataset, we propose a novel depth-conditioned inpainting method
called MirrorFusion, which generates high-quality geometrically consistent and
photo-realistic mirror reflections given an input image and a mask depicting
the mirror region. MirrorFusion outperforms state-of-the-art methods on
SynMirror, as demonstrated by extensive quantitative and qualitative analysis.
To the best of our knowledge, we are the first to successfully tackle the
challenging problem of generating controlled and faithful mirror reflections of
an object in a scene using diffusion based models. SynMirror and MirrorFusion
open up new avenues for image editing and augmented reality applications for
practitioners and researchers alike.Summary
AI-Generated Summary