ZeroComp: 확산을 통한 이미지 본질로부터의 제로샷 객체 합성
ZeroComp: Zero-shot Object Compositing from Image Intrinsics via Diffusion
October 10, 2024
저자: Zitian Zhang, Frédéric Fortier-Chouinard, Mathieu Garon, Anand Bhattad, Jean-François Lalonde
cs.AI
초록
우리는 훈련 중 짝지어진 합성 장면 이미지가 필요하지 않은 효과적인 제로샷 3D 객체 합성 접근 방식 ZeroComp을 제시합니다. 우리의 방법은 ControlNet을 활용하여 내재 이미지에서 조건을 주고, 안정적인 확산 모델과 결합하여 그 장면 사전을 활용하여 효과적인 렌더링 엔진으로 작동합니다. 훈련 중 ZeroComp은 기하학, 알베도, 그리고 마스크된 쉐이딩에 기반한 내재 이미지를 사용하며, 합성된 객체가 있는 장면과 없는 장면의 짝지어진 이미지가 필요하지 않습니다. 훈련을 마치면 가상 3D 객체를 장면에 매끄럽게 통합시켜 그림자를 조정하여 현실적인 합성물을 만들어냅니다. 우리는 고품질의 평가 데이터셋을 개발하였으며, ZeroComp이 양적 및 인간 인식 벤치마크에서 명시적 조명 추정 및 생성적 기법을 사용하는 방법을 능가함을 보여줍니다. 게다가, ZeroComp은 합성된 실내 데이터만을 사용하여 훈련되었을 때에도 실제 및 실외 이미지 합성에 확장되며, 이미지 합성에서의 효과를 보여줍니다.
English
We present ZeroComp, an effective zero-shot 3D object compositing approach
that does not require paired composite-scene images during training. Our method
leverages ControlNet to condition from intrinsic images and combines it with a
Stable Diffusion model to utilize its scene priors, together operating as an
effective rendering engine. During training, ZeroComp uses intrinsic images
based on geometry, albedo, and masked shading, all without the need for paired
images of scenes with and without composite objects. Once trained, it
seamlessly integrates virtual 3D objects into scenes, adjusting shading to
create realistic composites. We developed a high-quality evaluation dataset and
demonstrate that ZeroComp outperforms methods using explicit lighting
estimations and generative techniques in quantitative and human perception
benchmarks. Additionally, ZeroComp extends to real and outdoor image
compositing, even when trained solely on synthetic indoor data, showcasing its
effectiveness in image compositing.Summary
AI-Generated Summary