Inserimento Fotorealistico di Oggetti con Rendering Inverso Guidato da Diffusione
Photorealistic Object Insertion with Diffusion-Guided Inverse Rendering
August 19, 2024
Autori: Ruofan Liang, Zan Gojcic, Merlin Nimier-David, David Acuna, Nandita Vijaykumar, Sanja Fidler, Zian Wang
cs.AI
Abstract
L'inserimento corretto di oggetti virtuali in immagini di scene del mondo reale richiede una profonda comprensione dell'illuminazione, della geometria e dei materiali della scena, nonché del processo di formazione dell'immagine. Sebbene i recenti modelli di diffusione su larga scala abbiano dimostrato forti capacità generative e di inpainting, riscontriamo che i modelli attuali non "comprendono" sufficientemente la scena mostrata in una singola immagine per generare effetti di illuminazione coerenti (ombre, riflessi luminosi, ecc.) preservando al contempo l'identità e i dettagli dell'oggetto compositato. Proponiamo di utilizzare un modello di diffusione su larga scala personalizzato come guida per un processo di rendering inverso basato sulla fisica. Il nostro metodo recupera i parametri di illuminazione della scena e di tone-mapping, consentendo la composizione fotorealistica di oggetti virtuali arbitrari in singoli fotogrammi o video di scene interne o esterne. La nostra pipeline basata sulla fisica consente inoltre un affinamento automatico dei materiali e del tone-mapping.
English
The correct insertion of virtual objects in images of real-world scenes
requires a deep understanding of the scene's lighting, geometry and materials,
as well as the image formation process. While recent large-scale diffusion
models have shown strong generative and inpainting capabilities, we find that
current models do not sufficiently "understand" the scene shown in a single
picture to generate consistent lighting effects (shadows, bright reflections,
etc.) while preserving the identity and details of the composited object. We
propose using a personalized large diffusion model as guidance to a physically
based inverse rendering process. Our method recovers scene lighting and
tone-mapping parameters, allowing the photorealistic composition of arbitrary
virtual objects in single frames or videos of indoor or outdoor scenes. Our
physically based pipeline further enables automatic materials and tone-mapping
refinement.Summary
AI-Generated Summary