ZeroComp: Нулевая композиция объектов без предварительного обучения на основе внутренних характеристик изображения через диффузию
ZeroComp: Zero-shot Object Compositing from Image Intrinsics via Diffusion
October 10, 2024
Авторы: Zitian Zhang, Frédéric Fortier-Chouinard, Mathieu Garon, Anand Bhattad, Jean-François Lalonde
cs.AI
Аннотация
Мы представляем ZeroComp - эффективный подход к нулевой композиции 3D объектов, который не требует парных изображений сцен с композицией во время обучения. Наш метод использует ControlNet для условной генерации из внутренних изображений и объединяет его с моделью Stable Diffusion для использования сценических априорных знаний, действуя вместе как эффективный рендеринговый движок. Во время обучения ZeroComp использует внутренние изображения на основе геометрии, альбедо и маскированного затенения, все это без необходимости парных изображений сцен с и без композитных объектов. После обучения он бесшовно интегрирует виртуальные 3D объекты в сцены, корректируя затенение для создания реалистичных композиций. Мы разработали качественный набор данных для оценки и показали, что ZeroComp превосходит методы, использующие явные оценки освещения и генеративные техники, в количественных и оценочных бенчмарках человеческого восприятия. Кроме того, ZeroComp расширяется на реальную и наружную композицию изображений, даже если обучен только на синтетических внутренних данных, демонстрируя свою эффективность в композиции изображений.
English
We present ZeroComp, an effective zero-shot 3D object compositing approach
that does not require paired composite-scene images during training. Our method
leverages ControlNet to condition from intrinsic images and combines it with a
Stable Diffusion model to utilize its scene priors, together operating as an
effective rendering engine. During training, ZeroComp uses intrinsic images
based on geometry, albedo, and masked shading, all without the need for paired
images of scenes with and without composite objects. Once trained, it
seamlessly integrates virtual 3D objects into scenes, adjusting shading to
create realistic composites. We developed a high-quality evaluation dataset and
demonstrate that ZeroComp outperforms methods using explicit lighting
estimations and generative techniques in quantitative and human perception
benchmarks. Additionally, ZeroComp extends to real and outdoor image
compositing, even when trained solely on synthetic indoor data, showcasing its
effectiveness in image compositing.Summary
AI-Generated Summary