Apprendimento della fauna 3D del Web
Learning the 3D Fauna of the Web
January 4, 2024
Autori: Zizhang Li, Dor Litvak, Ruining Li, Yunzhi Zhang, Tomas Jakab, Christian Rupprecht, Shangzhe Wu, Andrea Vedaldi, Jiajun Wu
cs.AI
Abstract
L'apprendimento di modelli 3D di tutti gli animali sulla Terra richiede un ampliamento massiccio delle soluzioni esistenti. Con questo obiettivo finale in mente, sviluppiamo 3D-Fauna, un approccio che apprende un modello deformabile 3D pan-categoria per più di 100 specie animali in modo congiunto. Uno dei principali colli di bottiglia nella modellazione degli animali è la disponibilità limitata di dati di addestramento, che superiamo semplicemente apprendendo da immagini 2D disponibili su Internet. Dimostriamo che i precedenti tentativi specifici per categoria non riescono a generalizzare per specie rare con un numero limitato di immagini di addestramento. Affrontiamo questa sfida introducendo il Semantic Bank of Skinned Models (SBSM), che scopre automaticamente un piccolo insieme di forme animali di base combinando prior geometrici induttivi con conoscenze semantiche catturate implicitamente da un estrattore di funzionalità auto-supervisionato disponibile sul mercato. Per addestrare un tale modello, contribuiamo anche con un nuovo dataset su larga scala di diverse specie animali. Al momento dell'inferenza, data una singola immagine di qualsiasi animale quadrupede, il nostro modello ricostruisce una mesh 3D articolata in modo feed-forward in pochi secondi.
English
Learning 3D models of all animals on the Earth requires massively scaling up
existing solutions. With this ultimate goal in mind, we develop 3D-Fauna, an
approach that learns a pan-category deformable 3D animal model for more than
100 animal species jointly. One crucial bottleneck of modeling animals is the
limited availability of training data, which we overcome by simply learning
from 2D Internet images. We show that prior category-specific attempts fail to
generalize to rare species with limited training images. We address this
challenge by introducing the Semantic Bank of Skinned Models (SBSM), which
automatically discovers a small set of base animal shapes by combining
geometric inductive priors with semantic knowledge implicitly captured by an
off-the-shelf self-supervised feature extractor. To train such a model, we also
contribute a new large-scale dataset of diverse animal species. At inference
time, given a single image of any quadruped animal, our model reconstructs an
articulated 3D mesh in a feed-forward fashion within seconds.