ChatPaper.aiChatPaper

Aprendendo a Fauna 3D da Web

Learning the 3D Fauna of the Web

January 4, 2024
Autores: Zizhang Li, Dor Litvak, Ruining Li, Yunzhi Zhang, Tomas Jakab, Christian Rupprecht, Shangzhe Wu, Andrea Vedaldi, Jiajun Wu
cs.AI

Resumo

Aprender modelos 3D de todos os animais da Terra requer uma ampliação massiva das soluções existentes. Com esse objetivo final em mente, desenvolvemos o 3D-Fauna, uma abordagem que aprende um modelo 3D deformável pan-categoria para mais de 100 espécies de animais de forma conjunta. Um gargalo crucial na modelagem de animais é a disponibilidade limitada de dados de treinamento, que superamos ao simplesmente aprender a partir de imagens 2D da Internet. Mostramos que tentativas anteriores específicas por categoria falham em generalizar para espécies raras com imagens de treinamento limitadas. Abordamos esse desafio ao introduzir o Banco Semântico de Modelos Articulados (SBSM, na sigla em inglês), que descobre automaticamente um pequeno conjunto de formas básicas de animais ao combinar priores indutivos geométricos com conhecimento semântico implicitamente capturado por um extrator de características auto-supervisionado de prateleira. Para treinar tal modelo, também contribuímos com um novo conjunto de dados em larga escala de diversas espécies de animais. No momento da inferência, dada uma única imagem de qualquer animal quadrúpede, nosso modelo reconstrói uma malha 3D articulada de forma direta em questão de segundos.
English
Learning 3D models of all animals on the Earth requires massively scaling up existing solutions. With this ultimate goal in mind, we develop 3D-Fauna, an approach that learns a pan-category deformable 3D animal model for more than 100 animal species jointly. One crucial bottleneck of modeling animals is the limited availability of training data, which we overcome by simply learning from 2D Internet images. We show that prior category-specific attempts fail to generalize to rare species with limited training images. We address this challenge by introducing the Semantic Bank of Skinned Models (SBSM), which automatically discovers a small set of base animal shapes by combining geometric inductive priors with semantic knowledge implicitly captured by an off-the-shelf self-supervised feature extractor. To train such a model, we also contribute a new large-scale dataset of diverse animal species. At inference time, given a single image of any quadruped animal, our model reconstructs an articulated 3D mesh in a feed-forward fashion within seconds.
PDF111February 8, 2026