ChatPaper.aiChatPaper

Ricostruzione di Categorie Animabili da Video

Reconstructing Animatable Categories from Videos

May 10, 2023
Autori: Gengshan Yang, Chaoyang Wang, N Dinesh Reddy, Deva Ramanan
cs.AI

Abstract

La creazione di modelli 3D animabili è una sfida a causa della necessità di scansioni 3D, di una laboriosa registrazione e di un rigging manuale, processi difficili da scalare a categorie arbitrarie. Recentemente, il rendering differenziabile ha fornito un percorso per ottenere modelli 3D di alta qualità da video monoculari, ma questi sono limitati a categorie rigide o a singole istanze. Presentiamo RAC, che costruisce modelli 3D di categoria da video monoculari, separando le variazioni tra istanze e il movimento nel tempo. Tre idee chiave vengono introdotte per risolvere questo problema: (1) la specializzazione di uno scheletro per istanze tramite ottimizzazione, (2) un metodo per la regolarizzazione dello spazio latente che incoraggia una struttura condivisa attraverso una categoria mantenendo i dettagli specifici delle istanze, e (3) l'uso di modelli 3D di sfondo per separare gli oggetti dallo sfondo. Dimostriamo che è possibile apprendere modelli 3D di esseri umani, gatti e cani da 50-100 video provenienti da internet.
English
Building animatable 3D models is challenging due to the need for 3D scans, laborious registration, and manual rigging, which are difficult to scale to arbitrary categories. Recently, differentiable rendering provides a pathway to obtain high-quality 3D models from monocular videos, but these are limited to rigid categories or single instances. We present RAC that builds category 3D models from monocular videos while disentangling variations over instances and motion over time. Three key ideas are introduced to solve this problem: (1) specializing a skeleton to instances via optimization, (2) a method for latent space regularization that encourages shared structure across a category while maintaining instance details, and (3) using 3D background models to disentangle objects from the background. We show that 3D models of humans, cats, and dogs can be learned from 50-100 internet videos.
PDF10March 29, 2026