Отражение реальности: обеспечение моделей диффузии создания верных зеркальных отражений
Reflecting Reality: Enabling Diffusion Models to Produce Faithful Mirror Reflections
September 23, 2024
Авторы: Ankit Dhiman, Manan Shah, Rishubh Parihar, Yash Bhalgat, Lokesh R Boregowda, R Venkatesh Babu
cs.AI
Аннотация
Мы решаем проблему генерации высокореалистичных и правдоподобных отражений в зеркале с использованием генеративных моделей на основе диффузии. Мы формулируем эту задачу как задачу заполнения изображения, что позволяет более точно контролировать размещение зеркал в процессе генерации. Для этого мы создаем SynMirror - крупномасштабный набор данных разнообразных синтетических сцен с объектами, размещенными перед зеркалами. SynMirror содержит около 198 тыс. образцов, отрендеренных из 66 тыс. уникальных 3D объектов, а также их соответствующие карты глубины, карты нормалей и маски сегментации по экземплярам для захвата соответствующих геометрических свойств сцены. Используя этот набор данных, мы предлагаем новый метод заполнения, зависящий от глубины, названный MirrorFusion, который генерирует высококачественные геометрически согласованные и фотореалистичные отражения в зеркале на основе входного изображения и маски, изображающей область зеркала. MirrorFusion превосходит существующие методы на SynMirror, что подтверждается обширным количественным и качественным анализом. На наш взгляд, мы первые успешно решаем сложную задачу генерации контролируемых и верных отражений объекта на сцене с использованием моделей на основе диффузии. SynMirror и MirrorFusion открывают новые возможности для редактирования изображений и приложений дополненной реальности как для практиков, так и для исследователей.
English
We tackle the problem of generating highly realistic and plausible mirror
reflections using diffusion-based generative models. We formulate this problem
as an image inpainting task, allowing for more user control over the placement
of mirrors during the generation process. To enable this, we create SynMirror,
a large-scale dataset of diverse synthetic scenes with objects placed in front
of mirrors. SynMirror contains around 198K samples rendered from 66K unique 3D
objects, along with their associated depth maps, normal maps and instance-wise
segmentation masks, to capture relevant geometric properties of the scene.
Using this dataset, we propose a novel depth-conditioned inpainting method
called MirrorFusion, which generates high-quality geometrically consistent and
photo-realistic mirror reflections given an input image and a mask depicting
the mirror region. MirrorFusion outperforms state-of-the-art methods on
SynMirror, as demonstrated by extensive quantitative and qualitative analysis.
To the best of our knowledge, we are the first to successfully tackle the
challenging problem of generating controlled and faithful mirror reflections of
an object in a scene using diffusion based models. SynMirror and MirrorFusion
open up new avenues for image editing and augmented reality applications for
practitioners and researchers alike.Summary
AI-Generated Summary