Reflejando la realidad: permitiendo que los modelos de difusión produzcan reflejos de espejo fieles.
Reflecting Reality: Enabling Diffusion Models to Produce Faithful Mirror Reflections
September 23, 2024
Autores: Ankit Dhiman, Manan Shah, Rishubh Parihar, Yash Bhalgat, Lokesh R Boregowda, R Venkatesh Babu
cs.AI
Resumen
Abordamos el problema de generar reflejos de espejo altamente realistas y plausibles utilizando modelos generativos basados en difusión. Formulamos este problema como una tarea de rellenado de imágenes, lo que permite un mayor control por parte del usuario sobre la ubicación de los espejos durante el proceso de generación. Para habilitar esto, creamos SynMirror, un conjunto de datos a gran escala de escenas sintéticas diversas con objetos colocados frente a espejos. SynMirror contiene alrededor de 198K muestras renderizadas a partir de 66K objetos 3D únicos, junto con sus mapas de profundidad asociados, mapas normales y máscaras de segmentación por instancia, para capturar propiedades geométricas relevantes de la escena. Utilizando este conjunto de datos, proponemos un método de rellenado novedoso condicionado por la profundidad llamado MirrorFusion, que genera reflejos de espejo de alta calidad, geométricamente consistentes y fotorrealistas dado una imagen de entrada y una máscara que representa la región del espejo. MirrorFusion supera a los métodos de vanguardia en SynMirror, como se demuestra mediante un extenso análisis cuantitativo y cualitativo. Hasta donde alcanza nuestro conocimiento, somos los primeros en abordar con éxito el desafiante problema de generar reflejos de espejo controlados y fieles de un objeto en una escena utilizando modelos basados en difusión. SynMirror y MirrorFusion abren nuevas vías para la edición de imágenes y aplicaciones de realidad aumentada tanto para profesionales como para investigadores.
English
We tackle the problem of generating highly realistic and plausible mirror
reflections using diffusion-based generative models. We formulate this problem
as an image inpainting task, allowing for more user control over the placement
of mirrors during the generation process. To enable this, we create SynMirror,
a large-scale dataset of diverse synthetic scenes with objects placed in front
of mirrors. SynMirror contains around 198K samples rendered from 66K unique 3D
objects, along with their associated depth maps, normal maps and instance-wise
segmentation masks, to capture relevant geometric properties of the scene.
Using this dataset, we propose a novel depth-conditioned inpainting method
called MirrorFusion, which generates high-quality geometrically consistent and
photo-realistic mirror reflections given an input image and a mask depicting
the mirror region. MirrorFusion outperforms state-of-the-art methods on
SynMirror, as demonstrated by extensive quantitative and qualitative analysis.
To the best of our knowledge, we are the first to successfully tackle the
challenging problem of generating controlled and faithful mirror reflections of
an object in a scene using diffusion based models. SynMirror and MirrorFusion
open up new avenues for image editing and augmented reality applications for
practitioners and researchers alike.Summary
AI-Generated Summary