IDArb : Décomposition Intrinsèque pour un Nombre Arbitraire de Vues d'Entrée et d'Illuminations

papers.abstract

Capturer des informations géométriques et matérielles à partir d'images reste un défi fondamental en vision par ordinateur et en infographie. Les méthodes traditionnelles basées sur l'optimisation nécessitent souvent des heures de calcul pour reconstruire la géométrie, les propriétés matérielles et l'éclairage environnemental à partir d'entrées multi-vues denses, tout en luttant encore avec les ambiguïtés inhérentes entre l'éclairage et le matériau. D'autre part, les approches basées sur l'apprentissage exploitent des informations matérielles riches à partir de jeux de données d'objets 3D existants mais rencontrent des difficultés à maintenir une cohérence multi-vues. Dans cet article, nous présentons IDArb, un modèle basé sur la diffusion conçu pour effectuer une décomposition intrinsèque sur un nombre arbitraire d'images sous des illuminations variables. Notre méthode permet une estimation précise et cohérente multi-vues des normales de surface et des propriétés matérielles. Cela est rendu possible grâce à un module d'attention croisée vue par vue et domaine par domaine novateur, ainsi qu'à une stratégie d'entraînement augmentée par l'éclairage et adaptée à la vue. De plus, nous introduisons ARB-Objaverse, un nouveau jeu de données fournissant des données intrinsèques multi-vues à grande échelle et des rendus sous des conditions d'éclairage diverses, soutenant ainsi un entraînement robuste. Des expériences approfondies démontrent qu'IDArb surpasse qualitativement et quantitativement les méthodes de pointe. De plus, notre approche facilite toute une gamme de tâches ultérieures, y compris le reéclairage d'une seule image, la stéréophotométrie et la reconstruction 3D, mettant en lumière ses larges applications dans la création de contenu 3D réaliste.

English

Capturing geometric and material information from images remains a fundamental challenge in computer vision and graphics. Traditional optimization-based methods often require hours of computational time to reconstruct geometry, material properties, and environmental lighting from dense multi-view inputs, while still struggling with inherent ambiguities between lighting and material. On the other hand, learning-based approaches leverage rich material priors from existing 3D object datasets but face challenges with maintaining multi-view consistency. In this paper, we introduce IDArb, a diffusion-based model designed to perform intrinsic decomposition on an arbitrary number of images under varying illuminations. Our method achieves accurate and multi-view consistent estimation on surface normals and material properties. This is made possible through a novel cross-view, cross-domain attention module and an illumination-augmented, view-adaptive training strategy. Additionally, we introduce ARB-Objaverse, a new dataset that provides large-scale multi-view intrinsic data and renderings under diverse lighting conditions, supporting robust training. Extensive experiments demonstrate that IDArb outperforms state-of-the-art methods both qualitatively and quantitatively. Moreover, our approach facilitates a range of downstream tasks, including single-image relighting, photometric stereo, and 3D reconstruction, highlighting its broad applications in realistic 3D content creation.

IDArb : Décomposition Intrinsèque pour un Nombre Arbitraire de Vues d'Entrée et d'Illuminations

IDArb: Intrinsic Decomposition for Arbitrary Number of Input Views and Illuminations

papers.abstract

Support