Inserción de objetos fotorrealistas con renderizado inverso guiado por difusión.
Photorealistic Object Insertion with Diffusion-Guided Inverse Rendering
August 19, 2024
Autores: Ruofan Liang, Zan Gojcic, Merlin Nimier-David, David Acuna, Nandita Vijaykumar, Sanja Fidler, Zian Wang
cs.AI
Resumen
La correcta inserción de objetos virtuales en imágenes de escenas del mundo real requiere una comprensión profunda de la iluminación, geometría y materiales de la escena, así como del proceso de formación de la imagen. Si bien los modelos de difusión a gran escala recientes han demostrado sólidas capacidades generativas e inpainting, observamos que los modelos actuales no comprenden suficientemente la escena mostrada en una sola imagen para generar efectos de iluminación consistentes (sombras, reflejos brillantes, etc.) mientras se preserva la identidad y los detalles del objeto compuesto. Proponemos utilizar un modelo de difusión grande personalizado como guía para un proceso de renderizado inverso basado en la física. Nuestro método recupera los parámetros de iluminación y tone-mapping de la escena, lo que permite la composición fotorrealista de objetos virtuales arbitrarios en fotogramas individuales o videos de escenas interiores o exteriores. Nuestro flujo de trabajo basado en la física además posibilita el refinamiento automático de materiales y tone-mapping.
English
The correct insertion of virtual objects in images of real-world scenes
requires a deep understanding of the scene's lighting, geometry and materials,
as well as the image formation process. While recent large-scale diffusion
models have shown strong generative and inpainting capabilities, we find that
current models do not sufficiently "understand" the scene shown in a single
picture to generate consistent lighting effects (shadows, bright reflections,
etc.) while preserving the identity and details of the composited object. We
propose using a personalized large diffusion model as guidance to a physically
based inverse rendering process. Our method recovers scene lighting and
tone-mapping parameters, allowing the photorealistic composition of arbitrary
virtual objects in single frames or videos of indoor or outdoor scenes. Our
physically based pipeline further enables automatic materials and tone-mapping
refinement.Summary
AI-Generated Summary