Inserção de Objetos Fotorrealistas com Renderização Inversa Guiada por Difusão
Photorealistic Object Insertion with Diffusion-Guided Inverse Rendering
August 19, 2024
Autores: Ruofan Liang, Zan Gojcic, Merlin Nimier-David, David Acuna, Nandita Vijaykumar, Sanja Fidler, Zian Wang
cs.AI
Resumo
A correta inserção de objetos virtuais em imagens de cenas do mundo real requer um profundo entendimento da iluminação da cena, geometria e materiais, bem como do processo de formação da imagem. Embora modelos de difusão em larga escala recentes tenham mostrado fortes capacidades generativas e de inpainting, observamos que os modelos atuais não compreendem suficientemente a cena mostrada em uma única imagem para gerar efeitos de iluminação consistentes (sombras, reflexos brilhantes, etc.) enquanto preservam a identidade e detalhes do objeto composto. Propomos o uso de um modelo de difusão grande personalizado como orientação para um processo de renderização inversa baseado em física. Nosso método recupera os parâmetros de iluminação da cena e de tone mapping, permitindo a composição fotorrealista de objetos virtuais arbitrários em quadros únicos ou vídeos de cenas internas ou externas. Nosso pipeline baseado em física ainda possibilita o refinamento automático de materiais e tone mapping.
English
The correct insertion of virtual objects in images of real-world scenes
requires a deep understanding of the scene's lighting, geometry and materials,
as well as the image formation process. While recent large-scale diffusion
models have shown strong generative and inpainting capabilities, we find that
current models do not sufficiently "understand" the scene shown in a single
picture to generate consistent lighting effects (shadows, bright reflections,
etc.) while preserving the identity and details of the composited object. We
propose using a personalized large diffusion model as guidance to a physically
based inverse rendering process. Our method recovers scene lighting and
tone-mapping parameters, allowing the photorealistic composition of arbitrary
virtual objects in single frames or videos of indoor or outdoor scenes. Our
physically based pipeline further enables automatic materials and tone-mapping
refinement.Summary
AI-Generated Summary