ChatPaper.aiChatPaper

IDArb: Descomposición Intrínseca para un Número Arbitrario de Vistas de Entrada e Iluminaciones

IDArb: Intrinsic Decomposition for Arbitrary Number of Input Views and Illuminations

December 16, 2024
Autores: Zhibing Li, Tong Wu, Jing Tan, Mengchen Zhang, Jiaqi Wang, Dahua Lin
cs.AI

Resumen

Capturar información geométrica y material de imágenes sigue siendo un desafío fundamental en visión por computadora y gráficos. Los métodos tradicionales basados en optimización a menudo requieren horas de tiempo computacional para reconstruir geometría, propiedades de materiales e iluminación ambiental a partir de entradas densas de múltiples vistas, y aún así luchan con las ambigüedades inherentes entre iluminación y material. Por otro lado, los enfoques basados en aprendizaje aprovechan priors de material ricos de conjuntos de datos de objetos 3D existentes pero enfrentan desafíos para mantener la consistencia de múltiples vistas. En este documento, presentamos IDArb, un modelo basado en difusión diseñado para realizar una descomposición intrínseca en un número arbitrario de imágenes bajo iluminaciones variables. Nuestro método logra una estimación precisa y consistente de múltiples vistas en normales de superficie y propiedades de materiales. Esto es posible a través de un módulo de atención novedoso de vista cruzada y dominio cruzado y una estrategia de entrenamiento adaptativa a la vista y aumentada por iluminación. Además, presentamos ARB-Objaverse, un nuevo conjunto de datos que proporciona datos intrínsecos de múltiples vistas a gran escala y renderizaciones bajo diversas condiciones de iluminación, que respaldan un entrenamiento robusto. Experimentos extensos demuestran que IDArb supera a los métodos de vanguardia tanto cualitativa como cuantitativamente. Además, nuestro enfoque facilita una variedad de tareas posteriores, incluyendo relighting de una sola imagen, estéreo fotométrico y reconstrucción 3D, resaltando sus amplias aplicaciones en la creación de contenido 3D realista.
English
Capturing geometric and material information from images remains a fundamental challenge in computer vision and graphics. Traditional optimization-based methods often require hours of computational time to reconstruct geometry, material properties, and environmental lighting from dense multi-view inputs, while still struggling with inherent ambiguities between lighting and material. On the other hand, learning-based approaches leverage rich material priors from existing 3D object datasets but face challenges with maintaining multi-view consistency. In this paper, we introduce IDArb, a diffusion-based model designed to perform intrinsic decomposition on an arbitrary number of images under varying illuminations. Our method achieves accurate and multi-view consistent estimation on surface normals and material properties. This is made possible through a novel cross-view, cross-domain attention module and an illumination-augmented, view-adaptive training strategy. Additionally, we introduce ARB-Objaverse, a new dataset that provides large-scale multi-view intrinsic data and renderings under diverse lighting conditions, supporting robust training. Extensive experiments demonstrate that IDArb outperforms state-of-the-art methods both qualitatively and quantitatively. Moreover, our approach facilitates a range of downstream tasks, including single-image relighting, photometric stereo, and 3D reconstruction, highlighting its broad applications in realistic 3D content creation.

Summary

AI-Generated Summary

PDF122December 17, 2024