IDArb: Intrinsieke Decompositie voor Willekeurig Aantal Invoerweergaven en Verlichtingen
IDArb: Intrinsic Decomposition for Arbitrary Number of Input Views and Illuminations
December 16, 2024
Auteurs: Zhibing Li, Tong Wu, Jing Tan, Mengchen Zhang, Jiaqi Wang, Dahua Lin
cs.AI
Samenvatting
Het vastleggen van geometrische en materiële informatie uit afbeeldingen blijft een fundamentele uitdaging in computer vision en graphics. Traditionele optimalisatiegebaseerde methoden vereisen vaak uren aan rekenwerk om geometrie, materiële eigenschappen en omgevingsverlichting te reconstrueren uit dichte multi-view invoer, terwijl ze nog steeds worstelen met inherente ambiguïteiten tussen verlichting en materiaal. Aan de andere kant maken op leermethoden gebaseerde benaderingen gebruik van rijke materiële prior-kennis uit bestaande 3D-objectdatasets, maar hebben ze moeite met het behouden van multi-view consistentie. In dit artikel introduceren we IDArb, een op diffusie gebaseerd model dat is ontworpen om intrinsieke decompositie uit te voeren op een willekeurig aantal afbeeldingen onder variërende belichting. Onze methode bereikt nauwkeurige en multi-view consistente schattingen van oppervlaktenormalen en materiële eigenschappen. Dit wordt mogelijk gemaakt door een nieuw cross-view, cross-domain aandachtsmodule en een belichting-verrijkte, view-adaptieve trainingsstrategie. Daarnaast introduceren we ARB-Objaverse, een nieuwe dataset die grootschalige multi-view intrinsieke gegevens en renderingen onder diverse lichtomstandigheden biedt, ter ondersteuning van robuuste training. Uitgebreide experimenten tonen aan dat IDArb zowel kwalitatief als kwantitatief beter presteert dan state-of-the-art methoden. Bovendien vergemakkelijkt onze aanpak een reeks downstreamtaken, waaronder herbelichting van enkele afbeeldingen, fotometrische stereo en 3D-reconstructie, waarbij de brede toepassingen ervan in realistische 3D-contentcreatie worden benadrukt.
English
Capturing geometric and material information from images remains a
fundamental challenge in computer vision and graphics. Traditional
optimization-based methods often require hours of computational time to
reconstruct geometry, material properties, and environmental lighting from
dense multi-view inputs, while still struggling with inherent ambiguities
between lighting and material. On the other hand, learning-based approaches
leverage rich material priors from existing 3D object datasets but face
challenges with maintaining multi-view consistency. In this paper, we introduce
IDArb, a diffusion-based model designed to perform intrinsic decomposition on
an arbitrary number of images under varying illuminations. Our method achieves
accurate and multi-view consistent estimation on surface normals and material
properties. This is made possible through a novel cross-view, cross-domain
attention module and an illumination-augmented, view-adaptive training
strategy. Additionally, we introduce ARB-Objaverse, a new dataset that provides
large-scale multi-view intrinsic data and renderings under diverse lighting
conditions, supporting robust training. Extensive experiments demonstrate that
IDArb outperforms state-of-the-art methods both qualitatively and
quantitatively. Moreover, our approach facilitates a range of downstream tasks,
including single-image relighting, photometric stereo, and 3D reconstruction,
highlighting its broad applications in realistic 3D content creation.