Изучение 3D-фауны в интернете
Learning the 3D Fauna of the Web
January 4, 2024
Авторы: Zizhang Li, Dor Litvak, Ruining Li, Yunzhi Zhang, Tomas Jakab, Christian Rupprecht, Shangzhe Wu, Andrea Vedaldi, Jiajun Wu
cs.AI
Аннотация
Обучение 3D-моделей всех животных на Земле требует значительного масштабирования существующих решений. С этой конечной целью мы разработали 3D-Fauna — подход, который обучает универсальную деформируемую 3D-модель животных для более чем 100 видов одновременно. Одним из ключевых ограничений при моделировании животных является ограниченная доступность обучающих данных, которую мы преодолеваем, обучаясь на 2D-изображениях из интернета. Мы показываем, что предыдущие попытки, ориентированные на конкретные категории, не способны обобщать данные для редких видов с ограниченным количеством обучающих изображений. Мы решаем эту проблему, вводя Семантический Банк Скиннированных Моделей (SBSM), который автоматически обнаруживает небольшой набор базовых форм животных, комбинируя геометрические индуктивные априорные знания с семантической информацией, неявно извлеченной с помощью готового самообучаемого экстрактора признаков. Для обучения такой модели мы также представляем новый крупномасштабный набор данных, включающий разнообразные виды животных. На этапе вывода, получив одно изображение любого четвероногого животного, наша модель реконструирует артикулированную 3D-сетку в режиме прямого прохода за считанные секунды.
English
Learning 3D models of all animals on the Earth requires massively scaling up
existing solutions. With this ultimate goal in mind, we develop 3D-Fauna, an
approach that learns a pan-category deformable 3D animal model for more than
100 animal species jointly. One crucial bottleneck of modeling animals is the
limited availability of training data, which we overcome by simply learning
from 2D Internet images. We show that prior category-specific attempts fail to
generalize to rare species with limited training images. We address this
challenge by introducing the Semantic Bank of Skinned Models (SBSM), which
automatically discovers a small set of base animal shapes by combining
geometric inductive priors with semantic knowledge implicitly captured by an
off-the-shelf self-supervised feature extractor. To train such a model, we also
contribute a new large-scale dataset of diverse animal species. At inference
time, given a single image of any quadruped animal, our model reconstructs an
articulated 3D mesh in a feed-forward fashion within seconds.