Reconstruindo Categorias Animáveis a partir de Vídeos
Reconstructing Animatable Categories from Videos
May 10, 2023
Autores: Gengshan Yang, Chaoyang Wang, N Dinesh Reddy, Deva Ramanan
cs.AI
Resumo
A construção de modelos 3D animáveis é desafiadora devido à necessidade de escaneamentos 3D, registros laboriosos e rigging manual, que são difíceis de escalar para categorias arbitrárias. Recentemente, a renderização diferenciável oferece um caminho para obter modelos 3D de alta qualidade a partir de vídeos monoculares, mas esses são limitados a categorias rígidas ou instâncias únicas. Apresentamos o RAC, que constrói modelos 3D de categorias a partir de vídeos monoculares, ao mesmo tempo que desacopla variações entre instâncias e movimentos ao longo do tempo. Três ideias-chave são introduzidas para resolver esse problema: (1) especialização de um esqueleto para instâncias via otimização, (2) um método de regularização do espaço latente que incentiva a estrutura compartilhada em uma categoria, mantendo os detalhes das instâncias, e (3) o uso de modelos 3D de fundo para separar objetos do plano de fundo. Demonstramos que modelos 3D de humanos, gatos e cães podem ser aprendidos a partir de 50 a 100 vídeos da internet.
English
Building animatable 3D models is challenging due to the need for 3D scans,
laborious registration, and manual rigging, which are difficult to scale to
arbitrary categories. Recently, differentiable rendering provides a pathway to
obtain high-quality 3D models from monocular videos, but these are limited to
rigid categories or single instances. We present RAC that builds category 3D
models from monocular videos while disentangling variations over instances and
motion over time. Three key ideas are introduced to solve this problem: (1)
specializing a skeleton to instances via optimization, (2) a method for latent
space regularization that encourages shared structure across a category while
maintaining instance details, and (3) using 3D background models to disentangle
objects from the background. We show that 3D models of humans, cats, and dogs
can be learned from 50-100 internet videos.