웹의 3D 동물군 학습
Learning the 3D Fauna of the Web
January 4, 2024
저자: Zizhang Li, Dor Litvak, Ruining Li, Yunzhi Zhang, Tomas Jakab, Christian Rupprecht, Shangzhe Wu, Andrea Vedaldi, Jiajun Wu
cs.AI
초록
지구상의 모든 동물에 대한 3D 모델을 학습하기 위해서는 기존 솔루션을 대규모로 확장해야 합니다. 이러한 궁극적인 목표를 염두에 두고, 우리는 100종 이상의 동물 종을 공동으로 학습하는 범주별 변형 가능한 3D 동물 모델인 3D-Fauna를 개발했습니다. 동물 모델링의 중요한 병목 현상 중 하나는 훈련 데이터의 제한된 가용성인데, 우리는 이를 단순히 2D 인터넷 이미지로부터 학습함으로써 극복했습니다. 우리는 이전의 특정 범주에 한정된 시도들이 훈련 이미지가 제한된 희귀 종으로 일반화되지 못한다는 것을 보여줍니다. 우리는 이 문제를 해결하기 위해 기하학적 귀납적 사전 지식과 오프더셸프(self-supervised) 특징 추출기에 의해 암묵적으로 포착된 의미론적 지식을 결합하여 소수의 기본 동물 형태를 자동으로 발견하는 Semantic Bank of Skinned Models(SBSM)을 도입했습니다. 이러한 모델을 훈련시키기 위해, 우리는 또한 다양한 동물 종을 포함한 새로운 대규모 데이터셋을 제공합니다. 추론 시, 네 발 동물의 단일 이미지가 주어지면 우리의 모델은 몇 초 내에 관절형 3D 메쉬를 피드포워드 방식으로 재구성합니다.
English
Learning 3D models of all animals on the Earth requires massively scaling up
existing solutions. With this ultimate goal in mind, we develop 3D-Fauna, an
approach that learns a pan-category deformable 3D animal model for more than
100 animal species jointly. One crucial bottleneck of modeling animals is the
limited availability of training data, which we overcome by simply learning
from 2D Internet images. We show that prior category-specific attempts fail to
generalize to rare species with limited training images. We address this
challenge by introducing the Semantic Bank of Skinned Models (SBSM), which
automatically discovers a small set of base animal shapes by combining
geometric inductive priors with semantic knowledge implicitly captured by an
off-the-shelf self-supervised feature extractor. To train such a model, we also
contribute a new large-scale dataset of diverse animal species. At inference
time, given a single image of any quadruped animal, our model reconstructs an
articulated 3D mesh in a feed-forward fashion within seconds.