ARTIC3D : Apprentissage de formes 3D articulées robustes à partir de collections d'images web bruitées
ARTIC3D: Learning Robust Articulated 3D Shapes from Noisy Web Image Collections
June 7, 2023
Auteurs: Chun-Han Yao, Amit Raj, Wei-Chih Hung, Yuanzhen Li, Michael Rubinstein, Ming-Hsuan Yang, Varun Jampani
cs.AI
Résumé
L'estimation de formes articulées en 3D, comme les corps d'animaux, à partir d'images monoculaires est intrinsèquement complexe en raison des ambiguïtés liées au point de vue de la caméra, à la pose, à la texture, à l'éclairage, etc. Nous proposons ARTIC3D, un cadre auto-supervisé pour reconstruire des formes 3D par instance à partir d'une collection d'images éparses en conditions réelles. Concrètement, ARTIC3D s'appuie sur une représentation de surface basée sur un squelette et est guidé par des préconceptions de diffusion 2D issues de Stable Diffusion. Premièrement, nous améliorons les images d'entrée en gérant les occlusions/troncatures via la diffusion 2D pour obtenir des estimations de masques et des caractéristiques sémantiques plus propres. Deuxièmement, nous effectuons une optimisation 3D guidée par diffusion pour estimer la forme et la texture avec une haute fidélité et une grande adéquation aux images d'entrée. Nous proposons également une nouvelle technique pour calculer des gradients au niveau de l'image plus stables via les modèles de diffusion, comparée aux alternatives existantes. Enfin, nous produisons des animations réalistes en affinant la forme et la texture rendues sous des transformations rigides des parties. Des évaluations approfondies sur plusieurs jeux de données existants ainsi que sur de nouvelles collections d'images web bruitées avec occlusions et troncations démontrent que les sorties d'ARTIC3D sont plus robustes face aux images bruitées, de meilleure qualité en termes de détails de forme et de texture, et plus réalistes lorsqu'elles sont animées. Page du projet : https://chhankyao.github.io/artic3d/
English
Estimating 3D articulated shapes like animal bodies from monocular images is
inherently challenging due to the ambiguities of camera viewpoint, pose,
texture, lighting, etc. We propose ARTIC3D, a self-supervised framework to
reconstruct per-instance 3D shapes from a sparse image collection in-the-wild.
Specifically, ARTIC3D is built upon a skeleton-based surface representation and
is further guided by 2D diffusion priors from Stable Diffusion. First, we
enhance the input images with occlusions/truncation via 2D diffusion to obtain
cleaner mask estimates and semantic features. Second, we perform
diffusion-guided 3D optimization to estimate shape and texture that are of
high-fidelity and faithful to input images. We also propose a novel technique
to calculate more stable image-level gradients via diffusion models compared to
existing alternatives. Finally, we produce realistic animations by fine-tuning
the rendered shape and texture under rigid part transformations. Extensive
evaluations on multiple existing datasets as well as newly introduced noisy web
image collections with occlusions and truncation demonstrate that ARTIC3D
outputs are more robust to noisy images, higher quality in terms of shape and
texture details, and more realistic when animated. Project page:
https://chhankyao.github.io/artic3d/