Insertion photoréaliste d'objets avec rendu inverse guidé par diffusion
Photorealistic Object Insertion with Diffusion-Guided Inverse Rendering
August 19, 2024
Auteurs: Ruofan Liang, Zan Gojcic, Merlin Nimier-David, David Acuna, Nandita Vijaykumar, Sanja Fidler, Zian Wang
cs.AI
Résumé
L'insertion correcte d'objets virtuels dans des images de scènes du monde réel nécessite une compréhension approfondie de l'éclairage, de la géométrie et des matériaux de la scène, ainsi que du processus de formation de l'image. Bien que les modèles de diffusion à grande échelle récents aient démontré de solides capacités génératives et de réparation d'images, nous constatons que les modèles actuels ne "comprennent" pas suffisamment la scène représentée dans une seule image pour générer des effets d'éclairage cohérents (ombres, reflets lumineux, etc.) tout en préservant l'identité et les détails de l'objet composité. Nous proposons d'utiliser un modèle de diffusion personnalisé à grande échelle comme guide pour un processus de rendu inverse basé sur la physique. Notre méthode récupère les paramètres d'éclairage de la scène et de mappage des tons, permettant la composition photoréaliste d'objets virtuels arbitraires dans des images uniques ou des vidéos de scènes intérieures ou extérieures. Notre pipeline basé sur la physique permet en outre un affinement automatique des matériaux et du mappage des tons.
English
The correct insertion of virtual objects in images of real-world scenes
requires a deep understanding of the scene's lighting, geometry and materials,
as well as the image formation process. While recent large-scale diffusion
models have shown strong generative and inpainting capabilities, we find that
current models do not sufficiently "understand" the scene shown in a single
picture to generate consistent lighting effects (shadows, bright reflections,
etc.) while preserving the identity and details of the composited object. We
propose using a personalized large diffusion model as guidance to a physically
based inverse rendering process. Our method recovers scene lighting and
tone-mapping parameters, allowing the photorealistic composition of arbitrary
virtual objects in single frames or videos of indoor or outdoor scenes. Our
physically based pipeline further enables automatic materials and tone-mapping
refinement.Summary
AI-Generated Summary