Refletindo a Realidade: Permitindo que Modelos de Difusão Produzam Reflexos Fieis no Espelho
Reflecting Reality: Enabling Diffusion Models to Produce Faithful Mirror Reflections
September 23, 2024
Autores: Ankit Dhiman, Manan Shah, Rishubh Parihar, Yash Bhalgat, Lokesh R Boregowda, R Venkatesh Babu
cs.AI
Resumo
Abordamos o problema de gerar reflexos de espelho altamente realistas e plausíveis usando modelos generativos baseados em difusão. Formulamos esse problema como uma tarefa de inpainting de imagem, permitindo mais controle do usuário sobre a colocação de espelhos durante o processo de geração. Para possibilitar isso, criamos o SynMirror, um conjunto de dados em grande escala de cenas sintéticas diversas com objetos colocados na frente de espelhos. O SynMirror contém cerca de 198 mil amostras renderizadas a partir de 66 mil objetos 3D únicos, juntamente com seus mapas de profundidade associados, mapas normais e máscaras de segmentação por instância, para capturar propriedades geométricas relevantes da cena. Utilizando esse conjunto de dados, propomos um método de inpainting inovador condicionado à profundidade chamado MirrorFusion, que gera reflexos de espelho geometricamente consistentes e fotorrealistas de alta qualidade, dado uma imagem de entrada e uma máscara que representa a região do espelho. O MirrorFusion supera os métodos de ponta no SynMirror, conforme demonstrado por uma extensa análise quantitativa e qualitativa. Até onde sabemos, somos os primeiros a abordar com sucesso o desafiador problema de gerar reflexos de espelho controlados e fiéis de um objeto em uma cena usando modelos baseados em difusão. O SynMirror e o MirrorFusion abrem novas possibilidades para edição de imagem e aplicações de realidade aumentada tanto para profissionais quanto para pesquisadores.
English
We tackle the problem of generating highly realistic and plausible mirror
reflections using diffusion-based generative models. We formulate this problem
as an image inpainting task, allowing for more user control over the placement
of mirrors during the generation process. To enable this, we create SynMirror,
a large-scale dataset of diverse synthetic scenes with objects placed in front
of mirrors. SynMirror contains around 198K samples rendered from 66K unique 3D
objects, along with their associated depth maps, normal maps and instance-wise
segmentation masks, to capture relevant geometric properties of the scene.
Using this dataset, we propose a novel depth-conditioned inpainting method
called MirrorFusion, which generates high-quality geometrically consistent and
photo-realistic mirror reflections given an input image and a mask depicting
the mirror region. MirrorFusion outperforms state-of-the-art methods on
SynMirror, as demonstrated by extensive quantitative and qualitative analysis.
To the best of our knowledge, we are the first to successfully tackle the
challenging problem of generating controlled and faithful mirror reflections of
an object in a scene using diffusion based models. SynMirror and MirrorFusion
open up new avenues for image editing and augmented reality applications for
practitioners and researchers alike.Summary
AI-Generated Summary