IDArb: Intrinsische Zerlegung für eine beliebige Anzahl von Eingabesichten und Beleuchtungen
IDArb: Intrinsic Decomposition for Arbitrary Number of Input Views and Illuminations
December 16, 2024
Autoren: Zhibing Li, Tong Wu, Jing Tan, Mengchen Zhang, Jiaqi Wang, Dahua Lin
cs.AI
Zusammenfassung
Die Erfassung geometrischer und materieller Informationen aus Bildern bleibt eine grundlegende Herausforderung in der Computer Vision und Grafik. Traditionelle optimierungsbasierte Methoden erfordern oft Stunden an Rechenzeit, um Geometrie, Materialeigenschaften und Umgebungsbeleuchtung aus dichten Multi-View-Eingaben zu rekonstruieren, während sie immer noch mit inhärenten Mehrdeutigkeiten zwischen Beleuchtung und Material zu kämpfen haben. Auf der anderen Seite nutzen lernbasierte Ansätze reiche Materialeigenschaften aus vorhandenen 3D-Objektdatensätzen, haben jedoch Schwierigkeiten, eine Multi-View-Konsistenz aufrechtzuerhalten. In diesem Artikel stellen wir IDArb vor, ein diffusionsbasiertes Modell, das für die intrinsische Zerlegung in einer beliebigen Anzahl von Bildern unter variierenden Beleuchtungen entwickelt wurde. Unsere Methode erzielt eine genaue und konsistente Schätzung von Oberflächennormalen und Materialeigenschaften aus verschiedenen Blickwinkeln. Dies wird durch ein neuartiges Cross-View, Cross-Domain Attention-Modul und eine Beleuchtungs-augmentierte, Blickwinkel-adaptive Trainingsstrategie ermöglicht. Darüber hinaus stellen wir ARB-Objaverse vor, einen neuen Datensatz, der groß angelegte Multi-View-Intrinsikdaten und Renderings unter verschiedenen Beleuchtungsbedingungen bereitstellt und ein robustes Training unterstützt. Umfangreiche Experimente zeigen, dass IDArb sowohl qualitativ als auch quantitativ leistungsfähiger ist als aktuelle Methoden. Darüber hinaus erleichtert unser Ansatz eine Reihe von nachgelagerten Aufgaben, einschließlich Einzelbild-Neubeleuchtung, photometrischer Stereo und 3D-Rekonstruktion, was seine breite Anwendung in der realistischen 3D-Inhalteerstellung unterstreicht.
English
Capturing geometric and material information from images remains a
fundamental challenge in computer vision and graphics. Traditional
optimization-based methods often require hours of computational time to
reconstruct geometry, material properties, and environmental lighting from
dense multi-view inputs, while still struggling with inherent ambiguities
between lighting and material. On the other hand, learning-based approaches
leverage rich material priors from existing 3D object datasets but face
challenges with maintaining multi-view consistency. In this paper, we introduce
IDArb, a diffusion-based model designed to perform intrinsic decomposition on
an arbitrary number of images under varying illuminations. Our method achieves
accurate and multi-view consistent estimation on surface normals and material
properties. This is made possible through a novel cross-view, cross-domain
attention module and an illumination-augmented, view-adaptive training
strategy. Additionally, we introduce ARB-Objaverse, a new dataset that provides
large-scale multi-view intrinsic data and renderings under diverse lighting
conditions, supporting robust training. Extensive experiments demonstrate that
IDArb outperforms state-of-the-art methods both qualitatively and
quantitatively. Moreover, our approach facilitates a range of downstream tasks,
including single-image relighting, photometric stereo, and 3D reconstruction,
highlighting its broad applications in realistic 3D content creation.