ChatPaper.aiChatPaper

Rekonstruktion animierbarer Kategorien aus Videos

Reconstructing Animatable Categories from Videos

May 10, 2023
Autoren: Gengshan Yang, Chaoyang Wang, N Dinesh Reddy, Deva Ramanan
cs.AI

Zusammenfassung

Die Erstellung animierbarer 3D-Modelle ist aufgrund der Notwendigkeit von 3D-Scans, aufwändiger Registrierung und manueller Rigging-Prozesse eine Herausforderung, die sich nur schwer auf beliebige Kategorien skalieren lässt. Kürzlich hat differenzierbares Rendering einen Weg aufgezeigt, um hochwertige 3D-Modelle aus monokularen Videos zu gewinnen, doch diese sind auf starre Kategorien oder einzelne Instanzen beschränkt. Wir präsentieren RAC, das kategorische 3D-Modelle aus monokularen Videos erstellt und dabei Variationen zwischen Instanzen und Bewegungen über die Zeit entkoppelt. Drei Schlüsselideen werden eingeführt, um dieses Problem zu lösen: (1) die Anpassung eines Skeletts an Instanzen durch Optimierung, (2) eine Methode zur Regularisierung des latenten Raums, die gemeinsame Strukturen innerhalb einer Kategorie fördert, während Instanzdetails erhalten bleiben, und (3) die Verwendung von 3D-Hintergrundmodellen, um Objekte vom Hintergrund zu trennen. Wir zeigen, dass 3D-Modelle von Menschen, Katzen und Hunden aus 50–100 Internetvideos erlernt werden können.
English
Building animatable 3D models is challenging due to the need for 3D scans, laborious registration, and manual rigging, which are difficult to scale to arbitrary categories. Recently, differentiable rendering provides a pathway to obtain high-quality 3D models from monocular videos, but these are limited to rigid categories or single instances. We present RAC that builds category 3D models from monocular videos while disentangling variations over instances and motion over time. Three key ideas are introduced to solve this problem: (1) specializing a skeleton to instances via optimization, (2) a method for latent space regularization that encourages shared structure across a category while maintaining instance details, and (3) using 3D background models to disentangle objects from the background. We show that 3D models of humans, cats, and dogs can be learned from 50-100 internet videos.
PDF10December 15, 2024