Apprentissage de la faune 3D sur le Web
Learning the 3D Fauna of the Web
January 4, 2024
Auteurs: Zizhang Li, Dor Litvak, Ruining Li, Yunzhi Zhang, Tomas Jakab, Christian Rupprecht, Shangzhe Wu, Andrea Vedaldi, Jiajun Wu
cs.AI
Résumé
L'apprentissage de modèles 3D pour tous les animaux de la Terre nécessite une mise à l'échelle massive des solutions existantes. Dans cette optique, nous développons 3D-Fauna, une approche qui apprend un modèle 3D déformable pan-catégorie pour plus de 100 espèces animales conjointement. Un goulot d'étranglement crucial dans la modélisation des animaux est la disponibilité limitée des données d'entraînement, que nous surmontons en apprenant simplement à partir d'images 2D disponibles sur Internet. Nous montrons que les tentatives antérieures spécifiques à une catégorie échouent à généraliser aux espèces rares avec un nombre limité d'images d'entraînement. Nous relevons ce défi en introduisant la Banque Sémantique de Modèles Articulés (SBSM), qui découvre automatiquement un petit ensemble de formes animales de base en combinant des préconceptions géométriques inductives avec des connaissances sémantiques implicitement capturées par un extracteur de caractéristiques auto-supervisé prêt à l'emploi. Pour entraîner un tel modèle, nous contribuons également à un nouveau jeu de données à grande échelle comprenant diverses espèces animales. Au moment de l'inférence, étant donnée une seule image de n'importe quel animal quadrupède, notre modèle reconstruit un maillage 3D articulé de manière directe en quelques secondes.
English
Learning 3D models of all animals on the Earth requires massively scaling up
existing solutions. With this ultimate goal in mind, we develop 3D-Fauna, an
approach that learns a pan-category deformable 3D animal model for more than
100 animal species jointly. One crucial bottleneck of modeling animals is the
limited availability of training data, which we overcome by simply learning
from 2D Internet images. We show that prior category-specific attempts fail to
generalize to rare species with limited training images. We address this
challenge by introducing the Semantic Bank of Skinned Models (SBSM), which
automatically discovers a small set of base animal shapes by combining
geometric inductive priors with semantic knowledge implicitly captured by an
off-the-shelf self-supervised feature extractor. To train such a model, we also
contribute a new large-scale dataset of diverse animal species. At inference
time, given a single image of any quadruped animal, our model reconstructs an
articulated 3D mesh in a feed-forward fashion within seconds.