ChatPaper.aiChatPaper

Reconstruction de catégories animables à partir de vidéos

Reconstructing Animatable Categories from Videos

May 10, 2023
Auteurs: Gengshan Yang, Chaoyang Wang, N Dinesh Reddy, Deva Ramanan
cs.AI

Résumé

La construction de modèles 3D animables est un défi en raison de la nécessité de scans 3D, d'un enregistrement laborieux et d'un rigging manuel, qui sont difficiles à généraliser à des catégories arbitraires. Récemment, le rendu différenciable offre une voie pour obtenir des modèles 3D de haute qualité à partir de vidéos monoculaires, mais ceux-ci sont limités à des catégories rigides ou à des instances uniques. Nous présentons RAC, qui construit des modèles 3D par catégorie à partir de vidéos monoculaires tout en dissociant les variations entre instances et les mouvements dans le temps. Trois idées clés sont introduites pour résoudre ce problème : (1) l'adaptation d'un squelette à des instances via l'optimisation, (2) une méthode de régularisation de l'espace latent qui encourage une structure partagée au sein d'une catégorie tout en préservant les détails spécifiques à chaque instance, et (3) l'utilisation de modèles 3D d'arrière-plan pour dissocier les objets du fond. Nous montrons que des modèles 3D d'humains, de chats et de chiens peuvent être appris à partir de 50 à 100 vidéos disponibles sur internet.
English
Building animatable 3D models is challenging due to the need for 3D scans, laborious registration, and manual rigging, which are difficult to scale to arbitrary categories. Recently, differentiable rendering provides a pathway to obtain high-quality 3D models from monocular videos, but these are limited to rigid categories or single instances. We present RAC that builds category 3D models from monocular videos while disentangling variations over instances and motion over time. Three key ideas are introduced to solve this problem: (1) specializing a skeleton to instances via optimization, (2) a method for latent space regularization that encourages shared structure across a category while maintaining instance details, and (3) using 3D background models to disentangle objects from the background. We show that 3D models of humans, cats, and dogs can be learned from 50-100 internet videos.
PDF10December 15, 2024