ZeroComp : Composition d'objet sans étape intermédiaire à partir des intrinsèques de l'image via la diffusion
ZeroComp: Zero-shot Object Compositing from Image Intrinsics via Diffusion
October 10, 2024
Auteurs: Zitian Zhang, Frédéric Fortier-Chouinard, Mathieu Garon, Anand Bhattad, Jean-François Lalonde
cs.AI
Résumé
Nous présentons ZeroComp, une approche efficace de composition d'objets 3D sans apprentissage supervisé qui ne nécessite pas d'images de scènes composites appariées pendant l'entraînement. Notre méthode exploite ControlNet pour se conditionner à partir d'images intrinsèques et la combine avec un modèle de diffusion stable pour utiliser ses connaissances a priori sur les scènes, fonctionnant ensemble comme un moteur de rendu efficace. Pendant l'entraînement, ZeroComp utilise des images intrinsèques basées sur la géométrie, l'albédo et le masquage des ombres, le tout sans avoir besoin d'images appariées de scènes avec et sans objets composites. Une fois entraîné, il intègre de manière transparente des objets virtuels 3D dans les scènes, ajustant les ombres pour créer des composites réalistes. Nous avons développé un ensemble de données d'évaluation de haute qualité et démontrons que ZeroComp surpasse les méthodes utilisant des estimations d'éclairage explicites et des techniques génératives dans des benchmarks quantitatifs et de perception humaine. De plus, ZeroComp s'étend à la composition d'images réelles et en extérieur, même lorsqu'il est entraîné uniquement sur des données synthétiques d'intérieur, démontrant ainsi son efficacité en matière de composition d'images.
English
We present ZeroComp, an effective zero-shot 3D object compositing approach
that does not require paired composite-scene images during training. Our method
leverages ControlNet to condition from intrinsic images and combines it with a
Stable Diffusion model to utilize its scene priors, together operating as an
effective rendering engine. During training, ZeroComp uses intrinsic images
based on geometry, albedo, and masked shading, all without the need for paired
images of scenes with and without composite objects. Once trained, it
seamlessly integrates virtual 3D objects into scenes, adjusting shading to
create realistic composites. We developed a high-quality evaluation dataset and
demonstrate that ZeroComp outperforms methods using explicit lighting
estimations and generative techniques in quantitative and human perception
benchmarks. Additionally, ZeroComp extends to real and outdoor image
compositing, even when trained solely on synthetic indoor data, showcasing its
effectiveness in image compositing.Summary
AI-Generated Summary