フォトリアルな物体挿入:拡散モデルガイドによる逆レンダリング
Photorealistic Object Insertion with Diffusion-Guided Inverse Rendering
August 19, 2024
著者: Ruofan Liang, Zan Gojcic, Merlin Nimier-David, David Acuna, Nandita Vijaykumar, Sanja Fidler, Zian Wang
cs.AI
要旨
現実世界のシーン画像に仮想オブジェクトを正確に挿入するためには、シーンの照明、幾何学、材質、および画像形成プロセスに対する深い理解が必要です。近年の大規模拡散モデルは強力な生成能力とインペインティング能力を示していますが、現在のモデルは単一の画像に写るシーンを十分に「理解」しておらず、合成オブジェクトの同一性と詳細を保ちながら一貫した照明効果(影、明るい反射など)を生成することができません。本論文では、物理ベースの逆レンダリングプロセスに対するガイダンスとして、パーソナライズされた大規模拡散モデルを使用することを提案します。本手法はシーンの照明とトーンマッピングパラメータを復元し、屋内または屋外シーンの単一フレームまたはビデオにおける任意の仮想オブジェクトのフォトリアルな合成を可能にします。さらに、本手法の物理ベースのパイプラインは、材質とトーンマッピングの自動的な改善を実現します。
English
The correct insertion of virtual objects in images of real-world scenes
requires a deep understanding of the scene's lighting, geometry and materials,
as well as the image formation process. While recent large-scale diffusion
models have shown strong generative and inpainting capabilities, we find that
current models do not sufficiently "understand" the scene shown in a single
picture to generate consistent lighting effects (shadows, bright reflections,
etc.) while preserving the identity and details of the composited object. We
propose using a personalized large diffusion model as guidance to a physically
based inverse rendering process. Our method recovers scene lighting and
tone-mapping parameters, allowing the photorealistic composition of arbitrary
virtual objects in single frames or videos of indoor or outdoor scenes. Our
physically based pipeline further enables automatic materials and tone-mapping
refinement.Summary
AI-Generated Summary