Apprendimento della fauna 3D del Web

Abstract

L'apprendimento di modelli 3D di tutti gli animali sulla Terra richiede un ampliamento massiccio delle soluzioni esistenti. Con questo obiettivo finale in mente, sviluppiamo 3D-Fauna, un approccio che apprende un modello deformabile 3D pan-categoria per più di 100 specie animali in modo congiunto. Uno dei principali colli di bottiglia nella modellazione degli animali è la disponibilità limitata di dati di addestramento, che superiamo semplicemente apprendendo da immagini 2D disponibili su Internet. Dimostriamo che i precedenti tentativi specifici per categoria non riescono a generalizzare per specie rare con un numero limitato di immagini di addestramento. Affrontiamo questa sfida introducendo il Semantic Bank of Skinned Models (SBSM), che scopre automaticamente un piccolo insieme di forme animali di base combinando prior geometrici induttivi con conoscenze semantiche catturate implicitamente da un estrattore di funzionalità auto-supervisionato disponibile sul mercato. Per addestrare un tale modello, contribuiamo anche con un nuovo dataset su larga scala di diverse specie animali. Al momento dell'inferenza, data una singola immagine di qualsiasi animale quadrupede, il nostro modello ricostruisce una mesh 3D articolata in modo feed-forward in pochi secondi.

English

Learning 3D models of all animals on the Earth requires massively scaling up existing solutions. With this ultimate goal in mind, we develop 3D-Fauna, an approach that learns a pan-category deformable 3D animal model for more than 100 animal species jointly. One crucial bottleneck of modeling animals is the limited availability of training data, which we overcome by simply learning from 2D Internet images. We show that prior category-specific attempts fail to generalize to rare species with limited training images. We address this challenge by introducing the Semantic Bank of Skinned Models (SBSM), which automatically discovers a small set of base animal shapes by combining geometric inductive priors with semantic knowledge implicitly captured by an off-the-shelf self-supervised feature extractor. To train such a model, we also contribute a new large-scale dataset of diverse animal species. At inference time, given a single image of any quadruped animal, our model reconstructs an articulated 3D mesh in a feed-forward fashion within seconds.

Apprendimento della fauna 3D del Web

Learning the 3D Fauna of the Web

Abstract

Support