ChatPaper.aiChatPaper

Neural Gaffer: 확산 기반 임의 객체 재조명

Neural Gaffer: Relighting Any Object via Diffusion

June 11, 2024
저자: Haian Jin, Yuan Li, Fujun Luan, Yuanbo Xiangli, Sai Bi, Kai Zhang, Zexiang Xu, Jin Sun, Noah Snavely
cs.AI

초록

단일 이미지 재조명은 기하학, 재질, 조명 간의 복잡한 상호작용을 추론해야 하는 어려운 작업입니다. 기존의 많은 방법들은 초상화와 같은 특정 카테고리의 이미지만 지원하거나, 플래시 사용과 같은 특수한 촬영 조건을 요구합니다. 또는 일부 방법들은 장면을 법선(normals)과 BRDFs와 같은 내재적 요소로 명시적으로 분해하는데, 이는 부정확하거나 표현력이 부족할 수 있습니다. 본 연구에서는 'Neural Gaffer'라는 새로운 종단 간(end-to-end) 2D 재조명 확산 모델을 제안합니다. 이 모델은 어떤 물체의 단일 이미지를 입력받아, 명시적인 장면 분해 없이도 목표 환경 맵(environment map)을 조건으로 하여 어떤 새로운 환경 조명 조건에서도 정확하고 고품질의 재조명된 이미지를 합성할 수 있습니다. 우리의 방법은 사전 훈련된 확산 모델을 기반으로 하며, 합성 재조명 데이터셋에서 미세 조정(fine-tuning)을 통해 확산 모델 내에 내재된 조명 이해를 드러내고 활용합니다. 우리는 모델을 합성 데이터와 실제 인터넷 이미지에서 평가하며, 일반화와 정확성 측면에서의 장점을 입증합니다. 더 나아가, 다른 생성 방법과 결합함으로써 우리의 모델은 텍스트 기반 재조명 및 객체 삽입과 같은 다양한 하위 2D 작업을 가능하게 합니다. 또한, 우리의 모델은 방사 필드(radiance field) 재조명과 같은 3D 작업을 위한 강력한 재조명 사전 지식(prior)으로도 작동할 수 있습니다.
English
Single-image relighting is a challenging task that involves reasoning about the complex interplay between geometry, materials, and lighting. Many prior methods either support only specific categories of images, such as portraits, or require special capture conditions, like using a flashlight. Alternatively, some methods explicitly decompose a scene into intrinsic components, such as normals and BRDFs, which can be inaccurate or under-expressive. In this work, we propose a novel end-to-end 2D relighting diffusion model, called Neural Gaffer, that takes a single image of any object and can synthesize an accurate, high-quality relit image under any novel environmental lighting condition, simply by conditioning an image generator on a target environment map, without an explicit scene decomposition. Our method builds on a pre-trained diffusion model, and fine-tunes it on a synthetic relighting dataset, revealing and harnessing the inherent understanding of lighting present in the diffusion model. We evaluate our model on both synthetic and in-the-wild Internet imagery and demonstrate its advantages in terms of generalization and accuracy. Moreover, by combining with other generative methods, our model enables many downstream 2D tasks, such as text-based relighting and object insertion. Our model can also operate as a strong relighting prior for 3D tasks, such as relighting a radiance field.

Summary

AI-Generated Summary

PDF62December 8, 2024