DressRecon: Vrijevorm 4D menselijke reconstructie van monoculair video
DressRecon: Freeform 4D Human Reconstruction from Monocular Video
September 30, 2024
Auteurs: Jeff Tan, Donglai Xiang, Shubham Tulsiani, Deva Ramanan, Gengshan Yang
cs.AI
Samenvatting
We presenteren een methode om tijd-consistente menselijke lichaamsmodellen te reconstrueren van monoculaire video's, met de focus op zeer losse kleding of interacties met handheld objecten. Eerdere onderzoeken naar menselijke reconstructie zijn ofwel beperkt tot strakke kleding zonder objectinteracties, of vereisen gekalibreerde multi-view opnames of gepersonaliseerde sjabloonscans die kostbaar zijn om op grote schaal te verzamelen. Ons belangrijkste inzicht voor hoogwaardige maar flexibele reconstructie is de zorgvuldige combinatie van generieke menselijke aannames over gearticuleerde lichaamsvorm (geleerd uit grootschalige trainingsgegevens) met video-specifieke gearticuleerde "bag-of-bones" vervorming (aangepast aan een enkele video via optimalisatie op testtijd). We bereiken dit door het leren van een neurale impliciete model dat lichaams- versus kledingvervormingen ontwart als afzonderlijke bewegingsmodel-lagen. Om de subtiele geometrie van kleding vast te leggen, maken we gebruik van op beelden gebaseerde aannames zoals menselijke lichaamshouding, oppervlaktenormalen en optische stroming tijdens optimalisatie. De resulterende neurale velden kunnen worden geëxtraheerd in tijd-consistente meshes, of verder worden geoptimaliseerd als expliciete 3D-Gaussianen voor hoogwaardige interactieve rendering. Op datasets met zeer uitdagende kledingvervormingen en objectinteracties levert DressRecon 3D-reconstructies met hogere nauwkeurigheid op dan de eerdere methoden. Projectpagina: https://jefftan969.github.io/dressrecon/
English
We present a method to reconstruct time-consistent human body models from
monocular videos, focusing on extremely loose clothing or handheld object
interactions. Prior work in human reconstruction is either limited to tight
clothing with no object interactions, or requires calibrated multi-view
captures or personalized template scans which are costly to collect at scale.
Our key insight for high-quality yet flexible reconstruction is the careful
combination of generic human priors about articulated body shape (learned from
large-scale training data) with video-specific articulated "bag-of-bones"
deformation (fit to a single video via test-time optimization). We accomplish
this by learning a neural implicit model that disentangles body versus clothing
deformations as separate motion model layers. To capture subtle geometry of
clothing, we leverage image-based priors such as human body pose, surface
normals, and optical flow during optimization. The resulting neural fields can
be extracted into time-consistent meshes, or further optimized as explicit 3D
Gaussians for high-fidelity interactive rendering. On datasets with highly
challenging clothing deformations and object interactions, DressRecon yields
higher-fidelity 3D reconstructions than prior art. Project page:
https://jefftan969.github.io/dressrecon/Summary
AI-Generated Summary