IDArb: Внутреннее разложение для произвольного числа входных видов и иллюминаций
IDArb: Intrinsic Decomposition for Arbitrary Number of Input Views and Illuminations
December 16, 2024
Авторы: Zhibing Li, Tong Wu, Jing Tan, Mengchen Zhang, Jiaqi Wang, Dahua Lin
cs.AI
Аннотация
Захват геометрической и материальной информации изображений остается фундаментальным вызовом в компьютерном зрении и графике. Традиционные методы на основе оптимизации часто требуют часов вычислительного времени для восстановления геометрии, свойств материала и окружающего освещения из плотных многовидовых входных данных, при этом все еще борются с врожденными неоднозначностями между освещением и материалом. С другой стороны, методы на основе обучения используют богатые априорные данные о материалах из существующих наборов данных трехмерных объектов, но сталкиваются с проблемами поддержания согласованности между видами. В данной статье мы представляем IDArb, модель на основе диффузии, разработанную для выполнения внутреннего разложения на произвольном количестве изображений при изменяющемся освещении. Наш метод достигает точной и согласованной многовидовой оценки нормалей поверхности и свойств материала. Это достигается благодаря новому модулю внимания между видами и доменами и стратегии обучения с учетом освещения и адаптивной к виду. Кроме того, мы представляем ARB-Objaverse, новый набор данных, который предоставляет масштабные многовидовые внутренние данные и рендеринги при различных условиях освещения, обеспечивая надежное обучение. Обширные эксперименты показывают, что IDArb превосходит современные методы как качественно, так и количественно. Более того, наш подход облегчает ряд последующих задач, включая переосвещение одиночного изображения, фотометрическую стереоскопию и трехмерную реконструкцию, подчеркивая его широкие применения в создании реалистичного трехмерного контента.
English
Capturing geometric and material information from images remains a
fundamental challenge in computer vision and graphics. Traditional
optimization-based methods often require hours of computational time to
reconstruct geometry, material properties, and environmental lighting from
dense multi-view inputs, while still struggling with inherent ambiguities
between lighting and material. On the other hand, learning-based approaches
leverage rich material priors from existing 3D object datasets but face
challenges with maintaining multi-view consistency. In this paper, we introduce
IDArb, a diffusion-based model designed to perform intrinsic decomposition on
an arbitrary number of images under varying illuminations. Our method achieves
accurate and multi-view consistent estimation on surface normals and material
properties. This is made possible through a novel cross-view, cross-domain
attention module and an illumination-augmented, view-adaptive training
strategy. Additionally, we introduce ARB-Objaverse, a new dataset that provides
large-scale multi-view intrinsic data and renderings under diverse lighting
conditions, supporting robust training. Extensive experiments demonstrate that
IDArb outperforms state-of-the-art methods both qualitatively and
quantitatively. Moreover, our approach facilitates a range of downstream tasks,
including single-image relighting, photometric stereo, and 3D reconstruction,
highlighting its broad applications in realistic 3D content creation.Summary
AI-Generated Summary