ARTIC3D: Het leren van robuuste gearticuleerde 3D-vormen uit lawaaierige webbeeldcollecties
ARTIC3D: Learning Robust Articulated 3D Shapes from Noisy Web Image Collections
June 7, 2023
Auteurs: Chun-Han Yao, Amit Raj, Wei-Chih Hung, Yuanzhen Li, Michael Rubinstein, Ming-Hsuan Yang, Varun Jampani
cs.AI
Samenvatting
Het schatten van 3D-gearticuleerde vormen zoals dierenlichamen uit monoscopische afbeeldingen is inherent uitdagend vanwege de ambiguïteiten van camerastandpunt, houding, textuur, belichting, enz. Wij stellen ARTIC3D voor, een zelfgesuperviseerd raamwerk om per-instantie 3D-vormen te reconstrueren uit een spaarzame verzameling afbeeldingen in het wild. Specifiek is ARTIC3D gebouwd op een skeletgebaseerde oppervlakteweergave en wordt het verder geleid door 2D-diffusiepriors van Stable Diffusion. Ten eerste verbeteren we de invoerafbeeldingen met occlusies/afsnijdingen via 2D-diffusie om schonere maskerschattingen en semantische kenmerken te verkrijgen. Ten tweede voeren we diffusie-geleide 3D-optimalisatie uit om vorm en textuur te schatten die van hoge kwaliteit zijn en trouw aan de invoerafbeeldingen. We stellen ook een nieuwe techniek voor om stabielere beeldniveau-gradiënten te berekenen via diffusiemodellen in vergelijking met bestaande alternatieven. Tot produceren we realistische animaties door de gerenderde vorm en textuur te verfijnen onder rigide deeltransformaties. Uitgebreide evaluaties op meerdere bestaande datasets, evenals nieuw geïntroduceerde rommelige webafbeeldingsverzamelingen met occlusies en afsnijdingen, tonen aan dat ARTIC3D-uitvoer robuuster is tegen rommelige afbeeldingen, hogere kwaliteit heeft in termen van vorm- en textuurdetails, en realistischer is wanneer geanimeerd. Projectpagina: https://chhankyao.github.io/artic3d/
English
Estimating 3D articulated shapes like animal bodies from monocular images is
inherently challenging due to the ambiguities of camera viewpoint, pose,
texture, lighting, etc. We propose ARTIC3D, a self-supervised framework to
reconstruct per-instance 3D shapes from a sparse image collection in-the-wild.
Specifically, ARTIC3D is built upon a skeleton-based surface representation and
is further guided by 2D diffusion priors from Stable Diffusion. First, we
enhance the input images with occlusions/truncation via 2D diffusion to obtain
cleaner mask estimates and semantic features. Second, we perform
diffusion-guided 3D optimization to estimate shape and texture that are of
high-fidelity and faithful to input images. We also propose a novel technique
to calculate more stable image-level gradients via diffusion models compared to
existing alternatives. Finally, we produce realistic animations by fine-tuning
the rendered shape and texture under rigid part transformations. Extensive
evaluations on multiple existing datasets as well as newly introduced noisy web
image collections with occlusions and truncation demonstrate that ARTIC3D
outputs are more robust to noisy images, higher quality in terms of shape and
texture details, and more realistic when animated. Project page:
https://chhankyao.github.io/artic3d/