IDArb: Intrinsische Zerlegung für eine beliebige Anzahl von Eingabesichten und Beleuchtungen

papers.abstract

Die Erfassung geometrischer und materieller Informationen aus Bildern bleibt eine grundlegende Herausforderung in der Computer Vision und Grafik. Traditionelle optimierungsbasierte Methoden erfordern oft Stunden an Rechenzeit, um Geometrie, Materialeigenschaften und Umgebungsbeleuchtung aus dichten Multi-View-Eingaben zu rekonstruieren, während sie immer noch mit inhärenten Mehrdeutigkeiten zwischen Beleuchtung und Material zu kämpfen haben. Auf der anderen Seite nutzen lernbasierte Ansätze reiche Materialeigenschaften aus vorhandenen 3D-Objektdatensätzen, haben jedoch Schwierigkeiten, eine Multi-View-Konsistenz aufrechtzuerhalten. In diesem Artikel stellen wir IDArb vor, ein diffusionsbasiertes Modell, das für die intrinsische Zerlegung in einer beliebigen Anzahl von Bildern unter variierenden Beleuchtungen entwickelt wurde. Unsere Methode erzielt eine genaue und konsistente Schätzung von Oberflächennormalen und Materialeigenschaften aus verschiedenen Blickwinkeln. Dies wird durch ein neuartiges Cross-View, Cross-Domain Attention-Modul und eine Beleuchtungs-augmentierte, Blickwinkel-adaptive Trainingsstrategie ermöglicht. Darüber hinaus stellen wir ARB-Objaverse vor, einen neuen Datensatz, der groß angelegte Multi-View-Intrinsikdaten und Renderings unter verschiedenen Beleuchtungsbedingungen bereitstellt und ein robustes Training unterstützt. Umfangreiche Experimente zeigen, dass IDArb sowohl qualitativ als auch quantitativ leistungsfähiger ist als aktuelle Methoden. Darüber hinaus erleichtert unser Ansatz eine Reihe von nachgelagerten Aufgaben, einschließlich Einzelbild-Neubeleuchtung, photometrischer Stereo und 3D-Rekonstruktion, was seine breite Anwendung in der realistischen 3D-Inhalteerstellung unterstreicht.

English

Capturing geometric and material information from images remains a fundamental challenge in computer vision and graphics. Traditional optimization-based methods often require hours of computational time to reconstruct geometry, material properties, and environmental lighting from dense multi-view inputs, while still struggling with inherent ambiguities between lighting and material. On the other hand, learning-based approaches leverage rich material priors from existing 3D object datasets but face challenges with maintaining multi-view consistency. In this paper, we introduce IDArb, a diffusion-based model designed to perform intrinsic decomposition on an arbitrary number of images under varying illuminations. Our method achieves accurate and multi-view consistent estimation on surface normals and material properties. This is made possible through a novel cross-view, cross-domain attention module and an illumination-augmented, view-adaptive training strategy. Additionally, we introduce ARB-Objaverse, a new dataset that provides large-scale multi-view intrinsic data and renderings under diverse lighting conditions, supporting robust training. Extensive experiments demonstrate that IDArb outperforms state-of-the-art methods both qualitatively and quantitatively. Moreover, our approach facilitates a range of downstream tasks, including single-image relighting, photometric stereo, and 3D reconstruction, highlighting its broad applications in realistic 3D content creation.

IDArb: Intrinsische Zerlegung für eine beliebige Anzahl von Eingabesichten und Beleuchtungen

IDArb: Intrinsic Decomposition for Arbitrary Number of Input Views and Illuminations

papers.abstract

Support