IDArb : Décomposition Intrinsèque pour un Nombre Arbitraire de Vues d'Entrée et d'Illuminations
IDArb: Intrinsic Decomposition for Arbitrary Number of Input Views and Illuminations
December 16, 2024
Auteurs: Zhibing Li, Tong Wu, Jing Tan, Mengchen Zhang, Jiaqi Wang, Dahua Lin
cs.AI
Résumé
Capturer des informations géométriques et matérielles à partir d'images reste un défi fondamental en vision par ordinateur et en infographie. Les méthodes traditionnelles basées sur l'optimisation nécessitent souvent des heures de calcul pour reconstruire la géométrie, les propriétés matérielles et l'éclairage environnemental à partir d'entrées multi-vues denses, tout en luttant encore avec les ambiguïtés inhérentes entre l'éclairage et le matériau. D'autre part, les approches basées sur l'apprentissage exploitent des informations matérielles riches à partir de jeux de données d'objets 3D existants mais rencontrent des difficultés à maintenir une cohérence multi-vues. Dans cet article, nous présentons IDArb, un modèle basé sur la diffusion conçu pour effectuer une décomposition intrinsèque sur un nombre arbitraire d'images sous des illuminations variables. Notre méthode permet une estimation précise et cohérente multi-vues des normales de surface et des propriétés matérielles. Cela est rendu possible grâce à un module d'attention croisée vue par vue et domaine par domaine novateur, ainsi qu'à une stratégie d'entraînement augmentée par l'éclairage et adaptée à la vue. De plus, nous introduisons ARB-Objaverse, un nouveau jeu de données fournissant des données intrinsèques multi-vues à grande échelle et des rendus sous des conditions d'éclairage diverses, soutenant ainsi un entraînement robuste. Des expériences approfondies démontrent qu'IDArb surpasse qualitativement et quantitativement les méthodes de pointe. De plus, notre approche facilite toute une gamme de tâches ultérieures, y compris le reéclairage d'une seule image, la stéréophotométrie et la reconstruction 3D, mettant en lumière ses larges applications dans la création de contenu 3D réaliste.
English
Capturing geometric and material information from images remains a
fundamental challenge in computer vision and graphics. Traditional
optimization-based methods often require hours of computational time to
reconstruct geometry, material properties, and environmental lighting from
dense multi-view inputs, while still struggling with inherent ambiguities
between lighting and material. On the other hand, learning-based approaches
leverage rich material priors from existing 3D object datasets but face
challenges with maintaining multi-view consistency. In this paper, we introduce
IDArb, a diffusion-based model designed to perform intrinsic decomposition on
an arbitrary number of images under varying illuminations. Our method achieves
accurate and multi-view consistent estimation on surface normals and material
properties. This is made possible through a novel cross-view, cross-domain
attention module and an illumination-augmented, view-adaptive training
strategy. Additionally, we introduce ARB-Objaverse, a new dataset that provides
large-scale multi-view intrinsic data and renderings under diverse lighting
conditions, supporting robust training. Extensive experiments demonstrate that
IDArb outperforms state-of-the-art methods both qualitatively and
quantitatively. Moreover, our approach facilitates a range of downstream tasks,
including single-image relighting, photometric stereo, and 3D reconstruction,
highlighting its broad applications in realistic 3D content creation.Summary
AI-Generated Summary