DressRecon : Reconstruction libre en 4D de l'humain à partir de vidéos monoculaires
DressRecon: Freeform 4D Human Reconstruction from Monocular Video
September 30, 2024
Auteurs: Jeff Tan, Donglai Xiang, Shubham Tulsiani, Deva Ramanan, Gengshan Yang
cs.AI
Résumé
Nous présentons une méthode pour reconstruire des modèles de corps humain temporellement cohérents à partir de vidéos monoculaires, en mettant l'accent sur les vêtements extrêmement amples ou les interactions avec des objets tenus à la main. Les travaux antérieurs sur la reconstruction humaine se limitent soit aux vêtements serrés sans interactions avec des objets, soit nécessitent des captures multi-vues calibrées ou des scans de modèles personnalisés coûteux à collecter à grande échelle. Notre insight clé pour une reconstruction de haute qualité mais flexible réside dans la combinaison soigneuse de prédictions humaines génériques sur la forme articulée du corps (apprises à partir de données d'entraînement à grande échelle) avec une déformation articulée spécifique à la vidéo "bag-of-bones" (ajustée à une seule vidéo via une optimisation au moment du test). Nous réalisons cela en apprenant un modèle implicite neuronal qui démêle les déformations du corps et des vêtements en tant que couches de modèles de mouvement distinctes. Pour capturer la géométrie subtile des vêtements, nous exploitons des prédictions basées sur l'image telles que la pose du corps humain, les normales de surface et le flot optique pendant l'optimisation. Les champs neuronaux résultants peuvent être extraits en maillages temporellement cohérents, ou encore optimisés en tant que gaussiennes 3D explicites pour un rendu interactif haute fidélité. Sur des ensembles de données présentant des déformations de vêtements et des interactions avec des objets très complexes, DressRecon produit des reconstructions 3D de plus haute fidélité que les travaux antérieurs. Page du projet : https://jefftan969.github.io/dressrecon/
English
We present a method to reconstruct time-consistent human body models from
monocular videos, focusing on extremely loose clothing or handheld object
interactions. Prior work in human reconstruction is either limited to tight
clothing with no object interactions, or requires calibrated multi-view
captures or personalized template scans which are costly to collect at scale.
Our key insight for high-quality yet flexible reconstruction is the careful
combination of generic human priors about articulated body shape (learned from
large-scale training data) with video-specific articulated "bag-of-bones"
deformation (fit to a single video via test-time optimization). We accomplish
this by learning a neural implicit model that disentangles body versus clothing
deformations as separate motion model layers. To capture subtle geometry of
clothing, we leverage image-based priors such as human body pose, surface
normals, and optical flow during optimization. The resulting neural fields can
be extracted into time-consistent meshes, or further optimized as explicit 3D
Gaussians for high-fidelity interactive rendering. On datasets with highly
challenging clothing deformations and object interactions, DressRecon yields
higher-fidelity 3D reconstructions than prior art. Project page:
https://jefftan969.github.io/dressrecon/Summary
AI-Generated Summary