ChatPaper.aiChatPaper

Das Erlernen der 3D-Fauna des Webs

Learning the 3D Fauna of the Web

January 4, 2024
Autoren: Zizhang Li, Dor Litvak, Ruining Li, Yunzhi Zhang, Tomas Jakab, Christian Rupprecht, Shangzhe Wu, Andrea Vedaldi, Jiajun Wu
cs.AI

Zusammenfassung

Das Erlernen von 3D-Modellen aller Tiere auf der Erde erfordert eine massive Skalierung bestehender Lösungen. Mit diesem ultimativen Ziel vor Augen entwickeln wir 3D-Fauna, einen Ansatz, der ein pan-kategoriales, verformbares 3D-Tiermodell für mehr als 100 Tierarten gemeinsam erlernt. Ein entscheidender Engpass bei der Modellierung von Tieren ist die begrenzte Verfügbarkeit von Trainingsdaten, den wir überwinden, indem wir einfach aus 2D-Internetbildern lernen. Wir zeigen, dass bisherige kategorie-spezifische Ansätze scheitern, wenn sie auf seltene Arten mit begrenzten Trainingsbildern verallgemeinert werden sollen. Diese Herausforderung adressieren wir durch die Einführung der Semantic Bank of Skinned Models (SBSM), die automatisch eine kleine Menge von Basis-Tierformen entdeckt, indem sie geometrische induktive Prioritäten mit semantischem Wissen kombiniert, das implizit von einem vorgefertigten, selbstüberwachten Merkmalsextraktor erfasst wird. Um ein solches Modell zu trainieren, stellen wir auch einen neuen groß angelegten Datensatz mit verschiedenen Tierarten bereit. Zum Zeitpunkt der Inferenz rekonstruiert unser Modell aus einem einzelnen Bild eines beliebigen Vierbeiners in Sekundenschnelle ein artikuliertes 3D-Mesh in einem Feed-Forward-Verfahren.
English
Learning 3D models of all animals on the Earth requires massively scaling up existing solutions. With this ultimate goal in mind, we develop 3D-Fauna, an approach that learns a pan-category deformable 3D animal model for more than 100 animal species jointly. One crucial bottleneck of modeling animals is the limited availability of training data, which we overcome by simply learning from 2D Internet images. We show that prior category-specific attempts fail to generalize to rare species with limited training images. We address this challenge by introducing the Semantic Bank of Skinned Models (SBSM), which automatically discovers a small set of base animal shapes by combining geometric inductive priors with semantic knowledge implicitly captured by an off-the-shelf self-supervised feature extractor. To train such a model, we also contribute a new large-scale dataset of diverse animal species. At inference time, given a single image of any quadruped animal, our model reconstructs an articulated 3D mesh in a feed-forward fashion within seconds.
PDF111December 15, 2024