Воссоздание анимируемых категорий из видеозаписей
Reconstructing Animatable Categories from Videos
May 10, 2023
Авторы: Gengshan Yang, Chaoyang Wang, N Dinesh Reddy, Deva Ramanan
cs.AI
Аннотация
Создание анимируемых 3D-моделей является сложной задачей из-за необходимости 3D-сканирования, трудоемкой регистрации и ручной настройки скелета, что затрудняет масштабирование на произвольные категории. В последнее время дифференцируемый рендеринг предоставляет возможность получения высококачественных 3D-моделей из монохромных видео, но эти методы ограничены жесткими категориями или отдельными экземплярами. Мы представляем RAC, который строит 3D-модели категорий из монохромных видео, разделяя вариации между экземплярами и движение во времени. Для решения этой проблемы вводятся три ключевые идеи: (1) специализация скелета для конкретных экземпляров через оптимизацию, (2) метод регуляризации латентного пространства, который способствует общей структуре для категории, сохраняя при этом детали экземпляров, и (3) использование 3D-моделей фона для отделения объектов от фона. Мы показываем, что 3D-модели людей, кошек и собак могут быть обучены на основе 50–100 интернет-видео.
English
Building animatable 3D models is challenging due to the need for 3D scans,
laborious registration, and manual rigging, which are difficult to scale to
arbitrary categories. Recently, differentiable rendering provides a pathway to
obtain high-quality 3D models from monocular videos, but these are limited to
rigid categories or single instances. We present RAC that builds category 3D
models from monocular videos while disentangling variations over instances and
motion over time. Three key ideas are introduced to solve this problem: (1)
specializing a skeleton to instances via optimization, (2) a method for latent
space regularization that encourages shared structure across a category while
maintaining instance details, and (3) using 3D background models to disentangle
objects from the background. We show that 3D models of humans, cats, and dogs
can be learned from 50-100 internet videos.