ChatPaper.aiChatPaper

Neural Gaffer: 拡散モデルによる任意物体の再照明

Neural Gaffer: Relighting Any Object via Diffusion

June 11, 2024
著者: Haian Jin, Yuan Li, Fujun Luan, Yuanbo Xiangli, Sai Bi, Kai Zhang, Zexiang Xu, Jin Sun, Noah Snavely
cs.AI

要旨

単一画像の再照明は、幾何学、材質、照明の間の複雑な相互作用を推論する必要がある困難なタスクです。従来の多くの手法は、ポートレートなどの特定のカテゴリの画像のみをサポートするか、フラッシュライトの使用のような特別な撮影条件を必要とします。あるいは、一部の手法では、法線やBRDF(双方向反射率分布関数)などの固有成分にシーンを明示的に分解しますが、これらは不正確であったり表現力が不足していたりすることがあります。本研究では、任意の物体の単一画像を入力として、新しい環境照明条件下で正確で高品質な再照明画像を合成できる、Neural Gafferと呼ばれる新しいエンドツーエンドの2D再照明拡散モデルを提案します。このモデルは、明示的なシーン分解を行わずに、画像生成器をターゲットの環境マップに条件付けるだけで実現されます。私たちの手法は、事前に訓練された拡散モデルを基盤とし、合成再照明データセットで微調整を行うことで、拡散モデルに内在する照明の理解を明らかにし活用します。私たちは、合成画像と実世界のインターネット画像の両方でモデルを評価し、汎用性と正確性の点でその優位性を実証します。さらに、他の生成手法と組み合わせることで、テキストベースの再照明やオブジェクトの挿入などの多くの下流2Dタスクを可能にします。また、このモデルは、放射輝度フィールドの再照明などの3Dタスクにおいても強力な再照明事前分布として機能します。
English
Single-image relighting is a challenging task that involves reasoning about the complex interplay between geometry, materials, and lighting. Many prior methods either support only specific categories of images, such as portraits, or require special capture conditions, like using a flashlight. Alternatively, some methods explicitly decompose a scene into intrinsic components, such as normals and BRDFs, which can be inaccurate or under-expressive. In this work, we propose a novel end-to-end 2D relighting diffusion model, called Neural Gaffer, that takes a single image of any object and can synthesize an accurate, high-quality relit image under any novel environmental lighting condition, simply by conditioning an image generator on a target environment map, without an explicit scene decomposition. Our method builds on a pre-trained diffusion model, and fine-tunes it on a synthetic relighting dataset, revealing and harnessing the inherent understanding of lighting present in the diffusion model. We evaluate our model on both synthetic and in-the-wild Internet imagery and demonstrate its advantages in terms of generalization and accuracy. Moreover, by combining with other generative methods, our model enables many downstream 2D tasks, such as text-based relighting and object insertion. Our model can also operate as a strong relighting prior for 3D tasks, such as relighting a radiance field.

Summary

AI-Generated Summary

PDF62December 8, 2024