ChatPaper.aiChatPaper

Reconstrucción de Categorías Animables a partir de Vídeos

Reconstructing Animatable Categories from Videos

May 10, 2023
Autores: Gengshan Yang, Chaoyang Wang, N Dinesh Reddy, Deva Ramanan
cs.AI

Resumen

La creación de modelos 3D animables es un desafío debido a la necesidad de escaneos 3D, registros laboriosos y rigging manual, lo cual es difícil de escalar a categorías arbitrarias. Recientemente, el renderizado diferenciable ofrece una vía para obtener modelos 3D de alta calidad a partir de videos monoculares, pero estos están limitados a categorías rígidas o instancias únicas. Presentamos RAC, que construye modelos 3D de categorías a partir de videos monoculares mientras desentrelaza las variaciones entre instancias y el movimiento a lo largo del tiempo. Se introducen tres ideas clave para resolver este problema: (1) especializar un esqueleto para instancias mediante optimización, (2) un método de regularización del espacio latente que fomenta una estructura compartida en una categoría mientras mantiene los detalles de la instancia, y (3) el uso de modelos 3D de fondo para separar objetos del fondo. Demostramos que se pueden aprender modelos 3D de humanos, gatos y perros a partir de 50-100 videos de internet.
English
Building animatable 3D models is challenging due to the need for 3D scans, laborious registration, and manual rigging, which are difficult to scale to arbitrary categories. Recently, differentiable rendering provides a pathway to obtain high-quality 3D models from monocular videos, but these are limited to rigid categories or single instances. We present RAC that builds category 3D models from monocular videos while disentangling variations over instances and motion over time. Three key ideas are introduced to solve this problem: (1) specializing a skeleton to instances via optimization, (2) a method for latent space regularization that encourages shared structure across a category while maintaining instance details, and (3) using 3D background models to disentangle objects from the background. We show that 3D models of humans, cats, and dogs can be learned from 50-100 internet videos.
PDF10December 15, 2024