Animeerbare categorieën reconstrueren uit video's
Reconstructing Animatable Categories from Videos
May 10, 2023
Auteurs: Gengshan Yang, Chaoyang Wang, N Dinesh Reddy, Deva Ramanan
cs.AI
Samenvatting
Het bouwen van animeerbare 3D-modellen is uitdagend vanwege de behoefte aan 3D-scans, arbeidsintensieve registratie en handmatige rigging, wat moeilijk schaalbaar is naar willekeurige categorieën. Recentelijk biedt differentieerbaar renderen een weg om hoogwaardige 3D-modellen te verkrijgen uit monovideo's, maar deze zijn beperkt tot rigide categorieën of enkele instanties. Wij presenteren RAC, dat categorie-3D-modellen bouwt uit monovideo's terwijl variaties tussen instanties en beweging over tijd worden ontward. Drie sleutelideeën worden geïntroduceerd om dit probleem op te lossen: (1) het specialiseren van een skelet naar instanties via optimalisatie, (2) een methode voor latentieruimte-regularisatie die gedeelde structuur binnen een categorie aanmoedigt terwijl details van instanties behouden blijven, en (3) het gebruik van 3D-achtergrondmodellen om objecten van de achtergrond te scheiden. We tonen aan dat 3D-modellen van mensen, katten en honden kunnen worden geleerd uit 50-100 internetvideo's.
English
Building animatable 3D models is challenging due to the need for 3D scans,
laborious registration, and manual rigging, which are difficult to scale to
arbitrary categories. Recently, differentiable rendering provides a pathway to
obtain high-quality 3D models from monocular videos, but these are limited to
rigid categories or single instances. We present RAC that builds category 3D
models from monocular videos while disentangling variations over instances and
motion over time. Three key ideas are introduced to solve this problem: (1)
specializing a skeleton to instances via optimization, (2) a method for latent
space regularization that encourages shared structure across a category while
maintaining instance details, and (3) using 3D background models to disentangle
objects from the background. We show that 3D models of humans, cats, and dogs
can be learned from 50-100 internet videos.