ChatPaper.aiChatPaper

Aprendizaje de la Fauna 3D en la Web

Learning the 3D Fauna of the Web

January 4, 2024
Autores: Zizhang Li, Dor Litvak, Ruining Li, Yunzhi Zhang, Tomas Jakab, Christian Rupprecht, Shangzhe Wu, Andrea Vedaldi, Jiajun Wu
cs.AI

Resumen

Aprender modelos 3D de todos los animales de la Tierra requiere escalar masivamente las soluciones existentes. Con este objetivo final en mente, desarrollamos 3D-Fauna, un enfoque que aprende un modelo deformable 3D de animales pan-categórico para más de 100 especies de manera conjunta. Un cuello de botella crucial en el modelado de animales es la disponibilidad limitada de datos de entrenamiento, lo cual superamos simplemente aprendiendo a partir de imágenes 2D de Internet. Demostramos que los intentos previos específicos por categoría no logran generalizar a especies raras con imágenes de entrenamiento limitadas. Abordamos este desafío introduciendo el Banco Semántico de Modelos Articulados (SBSM, por sus siglas en inglés), que descubre automáticamente un pequeño conjunto de formas base de animales al combinar priors geométricos inductivos con conocimiento semántico capturado implícitamente por un extractor de características auto-supervisado estándar. Para entrenar dicho modelo, también contribuimos con un nuevo conjunto de datos a gran escala de diversas especies animales. En el momento de la inferencia, dada una sola imagen de cualquier animal cuadrúpedo, nuestro modelo reconstruye una malla 3D articulada de manera directa en cuestión de segundos.
English
Learning 3D models of all animals on the Earth requires massively scaling up existing solutions. With this ultimate goal in mind, we develop 3D-Fauna, an approach that learns a pan-category deformable 3D animal model for more than 100 animal species jointly. One crucial bottleneck of modeling animals is the limited availability of training data, which we overcome by simply learning from 2D Internet images. We show that prior category-specific attempts fail to generalize to rare species with limited training images. We address this challenge by introducing the Semantic Bank of Skinned Models (SBSM), which automatically discovers a small set of base animal shapes by combining geometric inductive priors with semantic knowledge implicitly captured by an off-the-shelf self-supervised feature extractor. To train such a model, we also contribute a new large-scale dataset of diverse animal species. At inference time, given a single image of any quadruped animal, our model reconstructs an articulated 3D mesh in a feed-forward fashion within seconds.
PDF111December 15, 2024