ZeroComp: Composição de Objetos sem Necessidade de Anotações a partir de Intrínsecos da Imagem via Difusão
ZeroComp: Zero-shot Object Compositing from Image Intrinsics via Diffusion
October 10, 2024
Autores: Zitian Zhang, Frédéric Fortier-Chouinard, Mathieu Garon, Anand Bhattad, Jean-François Lalonde
cs.AI
Resumo
Apresentamos o ZeroComp, uma abordagem eficaz de composição de objetos 3D sem a necessidade de imagens de cena compostas em pares durante o treinamento. Nosso método aproveita o ControlNet para condicionar a partir de imagens intrínsecas e combina-o com um modelo de Difusão Estável para utilizar seus conhecimentos prévios de cena, operando juntos como um mecanismo de renderização eficaz. Durante o treinamento, o ZeroComp utiliza imagens intrínsecas baseadas em geometria, albedo e sombreamento mascarado, tudo isso sem a necessidade de imagens em pares de cenas com e sem objetos compostos. Uma vez treinado, ele integra perfeitamente objetos virtuais 3D em cenas, ajustando o sombreamento para criar composições realistas. Desenvolvemos um conjunto de dados de avaliação de alta qualidade e demonstramos que o ZeroComp supera os métodos que utilizam estimativas de iluminação explícitas e técnicas generativas em benchmarks quantitativos e de percepção humana. Além disso, o ZeroComp se estende à composição de imagens reais e ao ar livre, mesmo quando treinado exclusivamente em dados sintéticos internos, demonstrando sua eficácia na composição de imagens.
English
We present ZeroComp, an effective zero-shot 3D object compositing approach
that does not require paired composite-scene images during training. Our method
leverages ControlNet to condition from intrinsic images and combines it with a
Stable Diffusion model to utilize its scene priors, together operating as an
effective rendering engine. During training, ZeroComp uses intrinsic images
based on geometry, albedo, and masked shading, all without the need for paired
images of scenes with and without composite objects. Once trained, it
seamlessly integrates virtual 3D objects into scenes, adjusting shading to
create realistic composites. We developed a high-quality evaluation dataset and
demonstrate that ZeroComp outperforms methods using explicit lighting
estimations and generative techniques in quantitative and human perception
benchmarks. Additionally, ZeroComp extends to real and outdoor image
compositing, even when trained solely on synthetic indoor data, showcasing its
effectiveness in image compositing.Summary
AI-Generated Summary