IDArb: Descomposición Intrínseca para un Número Arbitrario de Vistas de Entrada e Iluminaciones
IDArb: Intrinsic Decomposition for Arbitrary Number of Input Views and Illuminations
December 16, 2024
Autores: Zhibing Li, Tong Wu, Jing Tan, Mengchen Zhang, Jiaqi Wang, Dahua Lin
cs.AI
Resumen
Capturar información geométrica y material de imágenes sigue siendo un desafío fundamental en visión por computadora y gráficos. Los métodos tradicionales basados en optimización a menudo requieren horas de tiempo computacional para reconstruir geometría, propiedades de materiales e iluminación ambiental a partir de entradas densas de múltiples vistas, y aún así luchan con las ambigüedades inherentes entre iluminación y material. Por otro lado, los enfoques basados en aprendizaje aprovechan priors de material ricos de conjuntos de datos de objetos 3D existentes pero enfrentan desafíos para mantener la consistencia de múltiples vistas. En este documento, presentamos IDArb, un modelo basado en difusión diseñado para realizar una descomposición intrínseca en un número arbitrario de imágenes bajo iluminaciones variables. Nuestro método logra una estimación precisa y consistente de múltiples vistas en normales de superficie y propiedades de materiales. Esto es posible a través de un módulo de atención novedoso de vista cruzada y dominio cruzado y una estrategia de entrenamiento adaptativa a la vista y aumentada por iluminación. Además, presentamos ARB-Objaverse, un nuevo conjunto de datos que proporciona datos intrínsecos de múltiples vistas a gran escala y renderizaciones bajo diversas condiciones de iluminación, que respaldan un entrenamiento robusto. Experimentos extensos demuestran que IDArb supera a los métodos de vanguardia tanto cualitativa como cuantitativamente. Además, nuestro enfoque facilita una variedad de tareas posteriores, incluyendo relighting de una sola imagen, estéreo fotométrico y reconstrucción 3D, resaltando sus amplias aplicaciones en la creación de contenido 3D realista.
English
Capturing geometric and material information from images remains a
fundamental challenge in computer vision and graphics. Traditional
optimization-based methods often require hours of computational time to
reconstruct geometry, material properties, and environmental lighting from
dense multi-view inputs, while still struggling with inherent ambiguities
between lighting and material. On the other hand, learning-based approaches
leverage rich material priors from existing 3D object datasets but face
challenges with maintaining multi-view consistency. In this paper, we introduce
IDArb, a diffusion-based model designed to perform intrinsic decomposition on
an arbitrary number of images under varying illuminations. Our method achieves
accurate and multi-view consistent estimation on surface normals and material
properties. This is made possible through a novel cross-view, cross-domain
attention module and an illumination-augmented, view-adaptive training
strategy. Additionally, we introduce ARB-Objaverse, a new dataset that provides
large-scale multi-view intrinsic data and renderings under diverse lighting
conditions, supporting robust training. Extensive experiments demonstrate that
IDArb outperforms state-of-the-art methods both qualitatively and
quantitatively. Moreover, our approach facilitates a range of downstream tasks,
including single-image relighting, photometric stereo, and 3D reconstruction,
highlighting its broad applications in realistic 3D content creation.Summary
AI-Generated Summary