ZeroComp: Composición de objetos sin etiquetas a partir de intrínsecos de imagen a través de Difusión
ZeroComp: Zero-shot Object Compositing from Image Intrinsics via Diffusion
October 10, 2024
Autores: Zitian Zhang, Frédéric Fortier-Chouinard, Mathieu Garon, Anand Bhattad, Jean-François Lalonde
cs.AI
Resumen
Presentamos ZeroComp, un enfoque efectivo de composición de objetos 3D sin disparo que no requiere imágenes de escenas compuestas emparejadas durante el entrenamiento. Nuestro método aprovecha ControlNet para condicionar a partir de imágenes intrínsecas y lo combina con un modelo de Difusión Estable para utilizar sus precursores de escena, operando juntos como un motor de renderización efectivo. Durante el entrenamiento, ZeroComp utiliza imágenes intrínsecas basadas en geometría, albedo y sombreado enmascarado, todo sin la necesidad de imágenes emparejadas de escenas con y sin objetos compuestos. Una vez entrenado, integra sin problemas objetos virtuales 3D en escenas, ajustando el sombreado para crear composiciones realistas. Desarrollamos un conjunto de datos de evaluación de alta calidad y demostramos que ZeroComp supera a los métodos que utilizan estimaciones de iluminación explícitas y técnicas generativas en pruebas cuantitativas y de percepción humana. Además, ZeroComp se extiende a la composición de imágenes reales y al aire libre, incluso cuando se entrena únicamente con datos sintéticos en interiores, demostrando su efectividad en la composición de imágenes.
English
We present ZeroComp, an effective zero-shot 3D object compositing approach
that does not require paired composite-scene images during training. Our method
leverages ControlNet to condition from intrinsic images and combines it with a
Stable Diffusion model to utilize its scene priors, together operating as an
effective rendering engine. During training, ZeroComp uses intrinsic images
based on geometry, albedo, and masked shading, all without the need for paired
images of scenes with and without composite objects. Once trained, it
seamlessly integrates virtual 3D objects into scenes, adjusting shading to
create realistic composites. We developed a high-quality evaluation dataset and
demonstrate that ZeroComp outperforms methods using explicit lighting
estimations and generative techniques in quantitative and human perception
benchmarks. Additionally, ZeroComp extends to real and outdoor image
compositing, even when trained solely on synthetic indoor data, showcasing its
effectiveness in image compositing.Summary
AI-Generated Summary