ChatPaper.aiChatPaper

DressRecon: Vrijevorm 4D menselijke reconstructie van monoculair video

DressRecon: Freeform 4D Human Reconstruction from Monocular Video

September 30, 2024
Auteurs: Jeff Tan, Donglai Xiang, Shubham Tulsiani, Deva Ramanan, Gengshan Yang
cs.AI

Samenvatting

We presenteren een methode om tijd-consistente menselijke lichaamsmodellen te reconstrueren van monoculaire video's, met de focus op zeer losse kleding of interacties met handheld objecten. Eerdere onderzoeken naar menselijke reconstructie zijn ofwel beperkt tot strakke kleding zonder objectinteracties, of vereisen gekalibreerde multi-view opnames of gepersonaliseerde sjabloonscans die kostbaar zijn om op grote schaal te verzamelen. Ons belangrijkste inzicht voor hoogwaardige maar flexibele reconstructie is de zorgvuldige combinatie van generieke menselijke aannames over gearticuleerde lichaamsvorm (geleerd uit grootschalige trainingsgegevens) met video-specifieke gearticuleerde "bag-of-bones" vervorming (aangepast aan een enkele video via optimalisatie op testtijd). We bereiken dit door het leren van een neurale impliciete model dat lichaams- versus kledingvervormingen ontwart als afzonderlijke bewegingsmodel-lagen. Om de subtiele geometrie van kleding vast te leggen, maken we gebruik van op beelden gebaseerde aannames zoals menselijke lichaamshouding, oppervlaktenormalen en optische stroming tijdens optimalisatie. De resulterende neurale velden kunnen worden geëxtraheerd in tijd-consistente meshes, of verder worden geoptimaliseerd als expliciete 3D-Gaussianen voor hoogwaardige interactieve rendering. Op datasets met zeer uitdagende kledingvervormingen en objectinteracties levert DressRecon 3D-reconstructies met hogere nauwkeurigheid op dan de eerdere methoden. Projectpagina: https://jefftan969.github.io/dressrecon/
English
We present a method to reconstruct time-consistent human body models from monocular videos, focusing on extremely loose clothing or handheld object interactions. Prior work in human reconstruction is either limited to tight clothing with no object interactions, or requires calibrated multi-view captures or personalized template scans which are costly to collect at scale. Our key insight for high-quality yet flexible reconstruction is the careful combination of generic human priors about articulated body shape (learned from large-scale training data) with video-specific articulated "bag-of-bones" deformation (fit to a single video via test-time optimization). We accomplish this by learning a neural implicit model that disentangles body versus clothing deformations as separate motion model layers. To capture subtle geometry of clothing, we leverage image-based priors such as human body pose, surface normals, and optical flow during optimization. The resulting neural fields can be extracted into time-consistent meshes, or further optimized as explicit 3D Gaussians for high-fidelity interactive rendering. On datasets with highly challenging clothing deformations and object interactions, DressRecon yields higher-fidelity 3D reconstructions than prior art. Project page: https://jefftan969.github.io/dressrecon/

Summary

AI-Generated Summary

PDF92November 13, 2024