ZeroComp: Zero-shot object compositie vanuit beeldintrinsieken via diffusie
ZeroComp: Zero-shot Object Compositing from Image Intrinsics via Diffusion
October 10, 2024
Auteurs: Zitian Zhang, Frédéric Fortier-Chouinard, Mathieu Garon, Anand Bhattad, Jean-François Lalonde
cs.AI
Samenvatting
We presenteren ZeroComp, een effectieve zero-shot 3D object compositing benadering die geen gepaarde samengestelde scène-afbeeldingen vereist tijdens training. Onze methode maakt gebruik van ControlNet om te conditioneren vanuit intrinsieke afbeeldingen en combineert dit met een Stable Diffusion model om zijn scènevoorkeuren te benutten, die samen fungeren als een effectieve renderengine. Tijdens training maakt ZeroComp gebruik van intrinsieke afbeeldingen gebaseerd op geometrie, albedo en gemaskerde shading, allemaal zonder de noodzaak van gepaarde afbeeldingen van scènes met en zonder samengestelde objecten. Eenmaal getraind, integreert het naadloos virtuele 3D-objecten in scènes, waarbij de shading wordt aangepast om realistische composieten te creëren. We hebben een hoogwaardige evaluatiedataset ontwikkeld en laten zien dat ZeroComp methoden die gebruikmaken van expliciete belichtingsschattingen en generatieve technieken overtreft in kwantitatieve en menselijke perceptie-benchmarks. Bovendien breidt ZeroComp uit naar echte en buitenbeeldcompositie, zelfs wanneer alleen getraind op synthetische binnen data, waarbij het zijn effectiviteit in beeldcompositie aantoont.
English
We present ZeroComp, an effective zero-shot 3D object compositing approach
that does not require paired composite-scene images during training. Our method
leverages ControlNet to condition from intrinsic images and combines it with a
Stable Diffusion model to utilize its scene priors, together operating as an
effective rendering engine. During training, ZeroComp uses intrinsic images
based on geometry, albedo, and masked shading, all without the need for paired
images of scenes with and without composite objects. Once trained, it
seamlessly integrates virtual 3D objects into scenes, adjusting shading to
create realistic composites. We developed a high-quality evaluation dataset and
demonstrate that ZeroComp outperforms methods using explicit lighting
estimations and generative techniques in quantitative and human perception
benchmarks. Additionally, ZeroComp extends to real and outdoor image
compositing, even when trained solely on synthetic indoor data, showcasing its
effectiveness in image compositing.Summary
AI-Generated Summary