ChatPaper.aiChatPaper

IDArb: Decomposição Intrínseca para um Número Arbitrário de Visualizações e Iluminações de Entrada

IDArb: Intrinsic Decomposition for Arbitrary Number of Input Views and Illuminations

December 16, 2024
Autores: Zhibing Li, Tong Wu, Jing Tan, Mengchen Zhang, Jiaqi Wang, Dahua Lin
cs.AI

Resumo

Capturar informações geométricas e de material a partir de imagens continua sendo um desafio fundamental em visão computacional e gráficos. Métodos tradicionais baseados em otimização frequentemente exigem horas de tempo computacional para reconstruir geometria, propriedades de material e iluminação ambiental a partir de entradas densas de múltiplas vistas, enquanto ainda lidam com ambiguidades inerentes entre iluminação e material. Por outro lado, abordagens baseadas em aprendizado aproveitam priors de material ricos de conjuntos de dados de objetos 3D existentes, mas enfrentam desafios para manter a consistência entre múltiplas vistas. Neste artigo, apresentamos o IDArb, um modelo baseado em difusão projetado para realizar decomposição intrínseca em um número arbitrário de imagens sob iluminações variadas. Nosso método alcança uma estimativa precisa e consistente entre múltiplas vistas de normais de superfície e propriedades de material. Isso é possível por meio de um módulo de atenção cruzada entre vistas e domínios e uma estratégia de treinamento adaptativa à visualização, aumentada pela iluminação. Além disso, introduzimos o ARB-Objaverse, um novo conjunto de dados que fornece dados intrínsecos em grande escala de múltiplas vistas e renderizações sob condições de iluminação diversas, apoiando um treinamento robusto. Experimentos extensivos demonstram que o IDArb supera os métodos de ponta tanto qualitativa quanto quantitativamente. Além disso, nossa abordagem facilita uma variedade de tarefas subsequentes, incluindo reluzimento de imagem única, estéreo fotométrico e reconstrução 3D, destacando suas amplas aplicações na criação de conteúdo 3D realista.
English
Capturing geometric and material information from images remains a fundamental challenge in computer vision and graphics. Traditional optimization-based methods often require hours of computational time to reconstruct geometry, material properties, and environmental lighting from dense multi-view inputs, while still struggling with inherent ambiguities between lighting and material. On the other hand, learning-based approaches leverage rich material priors from existing 3D object datasets but face challenges with maintaining multi-view consistency. In this paper, we introduce IDArb, a diffusion-based model designed to perform intrinsic decomposition on an arbitrary number of images under varying illuminations. Our method achieves accurate and multi-view consistent estimation on surface normals and material properties. This is made possible through a novel cross-view, cross-domain attention module and an illumination-augmented, view-adaptive training strategy. Additionally, we introduce ARB-Objaverse, a new dataset that provides large-scale multi-view intrinsic data and renderings under diverse lighting conditions, supporting robust training. Extensive experiments demonstrate that IDArb outperforms state-of-the-art methods both qualitatively and quantitatively. Moreover, our approach facilitates a range of downstream tasks, including single-image relighting, photometric stereo, and 3D reconstruction, highlighting its broad applications in realistic 3D content creation.

Summary

AI-Generated Summary

PDF122December 17, 2024