Photorealistische Objekteinfügung mit diffusionsgesteuerter inverser Rendering.
Photorealistic Object Insertion with Diffusion-Guided Inverse Rendering
August 19, 2024
Autoren: Ruofan Liang, Zan Gojcic, Merlin Nimier-David, David Acuna, Nandita Vijaykumar, Sanja Fidler, Zian Wang
cs.AI
Zusammenfassung
Die korrekte Einbettung virtueller Objekte in Bilder von realen Szenen erfordert ein tiefes Verständnis der Beleuchtung, Geometrie und Materialien der Szene sowie des Bildentstehungsprozesses. Während aktuelle groß angelegte Diffusionsmodelle starke generative und Inpainting-Fähigkeiten gezeigt haben, stellen wir fest, dass die aktuellen Modelle die Szene in einem einzelnen Bild nicht ausreichend "verstehen", um konsistente Beleuchtungseffekte (Schatten, helle Reflexionen usw.) zu erzeugen, während sie die Identität und Details des eingefügten Objekts bewahren. Wir schlagen vor, ein personalisiertes großes Diffusionsmodell als Leitfaden für einen physikalisch basierten inversen Rendering-Prozess zu verwenden. Unsere Methode stellt Szenenbeleuchtung und Tone-Mapping-Parameter wieder her, was die fotorealistische Komposition beliebiger virtueller Objekte in Einzelbildern oder Videos von Innen- oder Außenszenen ermöglicht. Unsere physikalisch basierte Pipeline ermöglicht außerdem eine automatische Material- und Tone-Mapping-Verfeinerung.
English
The correct insertion of virtual objects in images of real-world scenes
requires a deep understanding of the scene's lighting, geometry and materials,
as well as the image formation process. While recent large-scale diffusion
models have shown strong generative and inpainting capabilities, we find that
current models do not sufficiently "understand" the scene shown in a single
picture to generate consistent lighting effects (shadows, bright reflections,
etc.) while preserving the identity and details of the composited object. We
propose using a personalized large diffusion model as guidance to a physically
based inverse rendering process. Our method recovers scene lighting and
tone-mapping parameters, allowing the photorealistic composition of arbitrary
virtual objects in single frames or videos of indoor or outdoor scenes. Our
physically based pipeline further enables automatic materials and tone-mapping
refinement.Summary
AI-Generated Summary