ChatPaper.aiChatPaper

IDArb: Intrinsieke Decompositie voor Willekeurig Aantal Invoerweergaven en Verlichtingen

IDArb: Intrinsic Decomposition for Arbitrary Number of Input Views and Illuminations

December 16, 2024
Auteurs: Zhibing Li, Tong Wu, Jing Tan, Mengchen Zhang, Jiaqi Wang, Dahua Lin
cs.AI

Samenvatting

Het vastleggen van geometrische en materiële informatie uit afbeeldingen blijft een fundamentele uitdaging in computer vision en graphics. Traditionele optimalisatiegebaseerde methoden vereisen vaak uren aan rekenwerk om geometrie, materiële eigenschappen en omgevingsverlichting te reconstrueren uit dichte multi-view invoer, terwijl ze nog steeds worstelen met inherente ambiguïteiten tussen verlichting en materiaal. Aan de andere kant maken op leermethoden gebaseerde benaderingen gebruik van rijke materiële prior-kennis uit bestaande 3D-objectdatasets, maar hebben ze moeite met het behouden van multi-view consistentie. In dit artikel introduceren we IDArb, een op diffusie gebaseerd model dat is ontworpen om intrinsieke decompositie uit te voeren op een willekeurig aantal afbeeldingen onder variërende belichting. Onze methode bereikt nauwkeurige en multi-view consistente schattingen van oppervlaktenormalen en materiële eigenschappen. Dit wordt mogelijk gemaakt door een nieuw cross-view, cross-domain aandachtsmodule en een belichting-verrijkte, view-adaptieve trainingsstrategie. Daarnaast introduceren we ARB-Objaverse, een nieuwe dataset die grootschalige multi-view intrinsieke gegevens en renderingen onder diverse lichtomstandigheden biedt, ter ondersteuning van robuuste training. Uitgebreide experimenten tonen aan dat IDArb zowel kwalitatief als kwantitatief beter presteert dan state-of-the-art methoden. Bovendien vergemakkelijkt onze aanpak een reeks downstreamtaken, waaronder herbelichting van enkele afbeeldingen, fotometrische stereo en 3D-reconstructie, waarbij de brede toepassingen ervan in realistische 3D-contentcreatie worden benadrukt.
English
Capturing geometric and material information from images remains a fundamental challenge in computer vision and graphics. Traditional optimization-based methods often require hours of computational time to reconstruct geometry, material properties, and environmental lighting from dense multi-view inputs, while still struggling with inherent ambiguities between lighting and material. On the other hand, learning-based approaches leverage rich material priors from existing 3D object datasets but face challenges with maintaining multi-view consistency. In this paper, we introduce IDArb, a diffusion-based model designed to perform intrinsic decomposition on an arbitrary number of images under varying illuminations. Our method achieves accurate and multi-view consistent estimation on surface normals and material properties. This is made possible through a novel cross-view, cross-domain attention module and an illumination-augmented, view-adaptive training strategy. Additionally, we introduce ARB-Objaverse, a new dataset that provides large-scale multi-view intrinsic data and renderings under diverse lighting conditions, supporting robust training. Extensive experiments demonstrate that IDArb outperforms state-of-the-art methods both qualitatively and quantitatively. Moreover, our approach facilitates a range of downstream tasks, including single-image relighting, photometric stereo, and 3D reconstruction, highlighting its broad applications in realistic 3D content creation.
PDF122December 17, 2024