ChatPaper.aiChatPaper

Animeerbare categorieën reconstrueren uit video's

Reconstructing Animatable Categories from Videos

May 10, 2023
Auteurs: Gengshan Yang, Chaoyang Wang, N Dinesh Reddy, Deva Ramanan
cs.AI

Samenvatting

Het bouwen van animeerbare 3D-modellen is uitdagend vanwege de behoefte aan 3D-scans, arbeidsintensieve registratie en handmatige rigging, wat moeilijk schaalbaar is naar willekeurige categorieën. Recentelijk biedt differentieerbaar renderen een weg om hoogwaardige 3D-modellen te verkrijgen uit monovideo's, maar deze zijn beperkt tot rigide categorieën of enkele instanties. Wij presenteren RAC, dat categorie-3D-modellen bouwt uit monovideo's terwijl variaties tussen instanties en beweging over tijd worden ontward. Drie sleutelideeën worden geïntroduceerd om dit probleem op te lossen: (1) het specialiseren van een skelet naar instanties via optimalisatie, (2) een methode voor latentieruimte-regularisatie die gedeelde structuur binnen een categorie aanmoedigt terwijl details van instanties behouden blijven, en (3) het gebruik van 3D-achtergrondmodellen om objecten van de achtergrond te scheiden. We tonen aan dat 3D-modellen van mensen, katten en honden kunnen worden geleerd uit 50-100 internetvideo's.
English
Building animatable 3D models is challenging due to the need for 3D scans, laborious registration, and manual rigging, which are difficult to scale to arbitrary categories. Recently, differentiable rendering provides a pathway to obtain high-quality 3D models from monocular videos, but these are limited to rigid categories or single instances. We present RAC that builds category 3D models from monocular videos while disentangling variations over instances and motion over time. Three key ideas are introduced to solve this problem: (1) specializing a skeleton to instances via optimization, (2) a method for latent space regularization that encourages shared structure across a category while maintaining instance details, and (3) using 3D background models to disentangle objects from the background. We show that 3D models of humans, cats, and dogs can be learned from 50-100 internet videos.
PDF10February 8, 2026