ChatPaper.aiChatPaper

ZeroComp: Composizione oggetti senza etichetta da intrinsechi immagine tramite diffusione

ZeroComp: Zero-shot Object Compositing from Image Intrinsics via Diffusion

October 10, 2024
Autori: Zitian Zhang, Frédéric Fortier-Chouinard, Mathieu Garon, Anand Bhattad, Jean-François Lalonde
cs.AI

Abstract

Presentiamo ZeroComp, un efficace approccio di compositing di oggetti 3D senza utilizzo di immagini di scene composte accoppiate durante l'addestramento. Il nostro metodo sfrutta ControlNet per condizionare dalle immagini intrinseche e le combina con un modello di diffusione stabile per utilizzare i suoi priori di scena, operando insieme come un motore di rendering efficace. Durante l'addestramento, ZeroComp utilizza immagini intrinseche basate sulla geometria, albedo e shading mascherato, tutto ciò senza la necessità di immagini accoppiate di scene con e senza oggetti composti. Una volta addestrato, integra senza soluzione di continuità oggetti virtuali 3D nelle scene, regolando il shading per creare compositi realistici. Abbiamo sviluppato un dataset di valutazione di alta qualità e dimostriamo che ZeroComp supera i metodi che utilizzano stime di illuminazione esplicite e tecniche generative nei benchmark quantitativi e nella percezione umana. Inoltre, ZeroComp si estende al compositing di immagini reali e all'aperto, anche quando addestrato esclusivamente su dati sintetici indoor, evidenziando la sua efficacia nel compositing di immagini.
English
We present ZeroComp, an effective zero-shot 3D object compositing approach that does not require paired composite-scene images during training. Our method leverages ControlNet to condition from intrinsic images and combines it with a Stable Diffusion model to utilize its scene priors, together operating as an effective rendering engine. During training, ZeroComp uses intrinsic images based on geometry, albedo, and masked shading, all without the need for paired images of scenes with and without composite objects. Once trained, it seamlessly integrates virtual 3D objects into scenes, adjusting shading to create realistic composites. We developed a high-quality evaluation dataset and demonstrate that ZeroComp outperforms methods using explicit lighting estimations and generative techniques in quantitative and human perception benchmarks. Additionally, ZeroComp extends to real and outdoor image compositing, even when trained solely on synthetic indoor data, showcasing its effectiveness in image compositing.
PDF93November 16, 2024