Het 3D-dierenrijk van het web leren kennen
Learning the 3D Fauna of the Web
January 4, 2024
Auteurs: Zizhang Li, Dor Litvak, Ruining Li, Yunzhi Zhang, Tomas Jakab, Christian Rupprecht, Shangzhe Wu, Andrea Vedaldi, Jiajun Wu
cs.AI
Samenvatting
Het leren van 3D-modellen van alle dieren op aarde vereist een enorme opschaling van bestaande oplossingen. Met dit ultieme doel voor ogen ontwikkelen we 3D-Fauna, een benadering die een pan-categorie vervormbaar 3D-dierenmodel leert voor meer dan 100 diersoorten gezamenlijk. Een cruciaal knelpunt bij het modelleren van dieren is de beperkte beschikbaarheid van trainingsdata, wat we overwinnen door simpelweg te leren van 2D-internetafbeeldingen. We laten zien dat eerdere categorie-specifieke pogingen niet generaliseren naar zeldzame soorten met beperkte trainingsafbeeldingen. We pakken deze uitdaging aan door de Semantic Bank of Skinned Models (SBSM) te introduceren, die automatisch een kleine set basisdierlijke vormen ontdekt door geometrische inductieve aannames te combineren met semantische kennis die impliciet wordt vastgelegd door een kant-en-klare zelfgesuperviseerde feature extractor. Om zo'n model te trainen, dragen we ook een nieuwe grootschalige dataset bij van diverse diersoorten. Tijdens inferentie reconstrueert ons model, gegeven een enkele afbeelding van een viervoetig dier, een gearticuleerd 3D-mesh op een feed-forward manier binnen enkele seconden.
English
Learning 3D models of all animals on the Earth requires massively scaling up
existing solutions. With this ultimate goal in mind, we develop 3D-Fauna, an
approach that learns a pan-category deformable 3D animal model for more than
100 animal species jointly. One crucial bottleneck of modeling animals is the
limited availability of training data, which we overcome by simply learning
from 2D Internet images. We show that prior category-specific attempts fail to
generalize to rare species with limited training images. We address this
challenge by introducing the Semantic Bank of Skinned Models (SBSM), which
automatically discovers a small set of base animal shapes by combining
geometric inductive priors with semantic knowledge implicitly captured by an
off-the-shelf self-supervised feature extractor. To train such a model, we also
contribute a new large-scale dataset of diverse animal species. At inference
time, given a single image of any quadruped animal, our model reconstructs an
articulated 3D mesh in a feed-forward fashion within seconds.