Het 3D-dierenrijk van het web leren kennen

Samenvatting

Het leren van 3D-modellen van alle dieren op aarde vereist een enorme opschaling van bestaande oplossingen. Met dit ultieme doel voor ogen ontwikkelen we 3D-Fauna, een benadering die een pan-categorie vervormbaar 3D-dierenmodel leert voor meer dan 100 diersoorten gezamenlijk. Een cruciaal knelpunt bij het modelleren van dieren is de beperkte beschikbaarheid van trainingsdata, wat we overwinnen door simpelweg te leren van 2D-internetafbeeldingen. We laten zien dat eerdere categorie-specifieke pogingen niet generaliseren naar zeldzame soorten met beperkte trainingsafbeeldingen. We pakken deze uitdaging aan door de Semantic Bank of Skinned Models (SBSM) te introduceren, die automatisch een kleine set basisdierlijke vormen ontdekt door geometrische inductieve aannames te combineren met semantische kennis die impliciet wordt vastgelegd door een kant-en-klare zelfgesuperviseerde feature extractor. Om zo'n model te trainen, dragen we ook een nieuwe grootschalige dataset bij van diverse diersoorten. Tijdens inferentie reconstrueert ons model, gegeven een enkele afbeelding van een viervoetig dier, een gearticuleerd 3D-mesh op een feed-forward manier binnen enkele seconden.

English

Learning 3D models of all animals on the Earth requires massively scaling up existing solutions. With this ultimate goal in mind, we develop 3D-Fauna, an approach that learns a pan-category deformable 3D animal model for more than 100 animal species jointly. One crucial bottleneck of modeling animals is the limited availability of training data, which we overcome by simply learning from 2D Internet images. We show that prior category-specific attempts fail to generalize to rare species with limited training images. We address this challenge by introducing the Semantic Bank of Skinned Models (SBSM), which automatically discovers a small set of base animal shapes by combining geometric inductive priors with semantic knowledge implicitly captured by an off-the-shelf self-supervised feature extractor. To train such a model, we also contribute a new large-scale dataset of diverse animal species. At inference time, given a single image of any quadruped animal, our model reconstructs an articulated 3D mesh in a feed-forward fashion within seconds.

Het 3D-dierenrijk van het web leren kennen

Learning the 3D Fauna of the Web

Samenvatting

Support