ChatPaper.aiChatPaper

DressRecon: Reconstrução Humana 4D Livre de Formato a partir de Vídeo Monocular

DressRecon: Freeform 4D Human Reconstruction from Monocular Video

September 30, 2024
Autores: Jeff Tan, Donglai Xiang, Shubham Tulsiani, Deva Ramanan, Gengshan Yang
cs.AI

Resumo

Apresentamos um método para reconstruir modelos de corpo humano temporalmente consistentes a partir de vídeos monoculares, com foco em roupas extremamente folgadas ou interações com objetos manuais. Trabalhos anteriores em reconstrução humana estão limitados a roupas justas sem interações com objetos, ou exigem capturas multi-visão calibradas ou varreduras de modelo personalizadas, o que é caro de obter em grande escala. Nossa principal contribuição para uma reconstrução flexível e de alta qualidade é a combinação cuidadosa de conhecimentos prévios genéricos sobre a forma do corpo humano articulado (aprendidos a partir de dados de treinamento em larga escala) com deformações articuladas específicas de vídeo em um "saco de ossos" (ajustadas a um único vídeo por meio de otimização em tempo de teste). Conseguimos isso ao aprender um modelo neural implícito que separa as deformações do corpo e das roupas em camadas de modelo de movimento distintas. Para capturar a geometria sutil das roupas, aproveitamos conhecimentos prévios baseados em imagens, como pose do corpo humano, normais de superfície e fluxo óptico durante a otimização. Os campos neurais resultantes podem ser extraídos em malhas temporalmente consistentes, ou ainda otimizados como gaussianas 3D explícitas para renderização interativa de alta fidelidade. Em conjuntos de dados com deformações de roupas altamente desafiadoras e interações com objetos, o DressRecon produz reconstruções 3D de maior fidelidade do que a arte anterior. Página do projeto: https://jefftan969.github.io/dressrecon/
English
We present a method to reconstruct time-consistent human body models from monocular videos, focusing on extremely loose clothing or handheld object interactions. Prior work in human reconstruction is either limited to tight clothing with no object interactions, or requires calibrated multi-view captures or personalized template scans which are costly to collect at scale. Our key insight for high-quality yet flexible reconstruction is the careful combination of generic human priors about articulated body shape (learned from large-scale training data) with video-specific articulated "bag-of-bones" deformation (fit to a single video via test-time optimization). We accomplish this by learning a neural implicit model that disentangles body versus clothing deformations as separate motion model layers. To capture subtle geometry of clothing, we leverage image-based priors such as human body pose, surface normals, and optical flow during optimization. The resulting neural fields can be extracted into time-consistent meshes, or further optimized as explicit 3D Gaussians for high-fidelity interactive rendering. On datasets with highly challenging clothing deformations and object interactions, DressRecon yields higher-fidelity 3D reconstructions than prior art. Project page: https://jefftan969.github.io/dressrecon/

Summary

AI-Generated Summary

PDF92November 13, 2024