ARTIC3D: Apprendimento di Forme Articolate 3D Robuste da Collezioni di Immagini Web Rumoreggiate
ARTIC3D: Learning Robust Articulated 3D Shapes from Noisy Web Image Collections
June 7, 2023
Autori: Chun-Han Yao, Amit Raj, Wei-Chih Hung, Yuanzhen Li, Michael Rubinstein, Ming-Hsuan Yang, Varun Jampani
cs.AI
Abstract
La stima di forme articolate 3D, come i corpi degli animali, a partire da immagini monoculari è intrinsecamente complessa a causa delle ambiguità legate al punto di vista della telecamera, alla posa, alla texture, all'illuminazione, ecc. Proponiamo ARTIC3D, un framework auto-supervisionato per ricostruire forme 3D specifiche per ogni istanza da una raccolta sparsa di immagini in contesti non controllati. Nello specifico, ARTIC3D si basa su una rappresentazione della superficie basata su uno scheletro ed è ulteriormente guidato da prior di diffusione 2D provenienti da Stable Diffusion. In primo luogo, miglioriamo le immagini di input con occlusioni/troncature tramite diffusione 2D per ottenere stime più pulite delle maschere e delle caratteristiche semantiche. In secondo luogo, eseguiamo un'ottimizzazione 3D guidata dalla diffusione per stimare forma e texture che siano ad alta fedeltà e fedeli alle immagini di input. Proponiamo inoltre una nuova tecnica per calcolare gradienti a livello di immagine più stabili tramite modelli di diffusione rispetto alle alternative esistenti. Infine, produciamo animazioni realistiche affinando la forma e la texture renderizzate sotto trasformazioni rigide delle parti. Valutazioni estese su più dataset esistenti, nonché su nuove raccolte di immagini web rumorose con occlusioni e troncature, dimostrano che gli output di ARTIC3D sono più robusti rispetto alle immagini rumorose, di qualità superiore in termini di dettagli di forma e texture, e più realistici quando animati. Pagina del progetto: https://chhankyao.github.io/artic3d/
English
Estimating 3D articulated shapes like animal bodies from monocular images is
inherently challenging due to the ambiguities of camera viewpoint, pose,
texture, lighting, etc. We propose ARTIC3D, a self-supervised framework to
reconstruct per-instance 3D shapes from a sparse image collection in-the-wild.
Specifically, ARTIC3D is built upon a skeleton-based surface representation and
is further guided by 2D diffusion priors from Stable Diffusion. First, we
enhance the input images with occlusions/truncation via 2D diffusion to obtain
cleaner mask estimates and semantic features. Second, we perform
diffusion-guided 3D optimization to estimate shape and texture that are of
high-fidelity and faithful to input images. We also propose a novel technique
to calculate more stable image-level gradients via diffusion models compared to
existing alternatives. Finally, we produce realistic animations by fine-tuning
the rendered shape and texture under rigid part transformations. Extensive
evaluations on multiple existing datasets as well as newly introduced noisy web
image collections with occlusions and truncation demonstrate that ARTIC3D
outputs are more robust to noisy images, higher quality in terms of shape and
texture details, and more realistic when animated. Project page:
https://chhankyao.github.io/artic3d/