Изучение 3D-фауны в интернете

Аннотация

Обучение 3D-моделей всех животных на Земле требует значительного масштабирования существующих решений. С этой конечной целью мы разработали 3D-Fauna — подход, который обучает универсальную деформируемую 3D-модель животных для более чем 100 видов одновременно. Одним из ключевых ограничений при моделировании животных является ограниченная доступность обучающих данных, которую мы преодолеваем, обучаясь на 2D-изображениях из интернета. Мы показываем, что предыдущие попытки, ориентированные на конкретные категории, не способны обобщать данные для редких видов с ограниченным количеством обучающих изображений. Мы решаем эту проблему, вводя Семантический Банк Скиннированных Моделей (SBSM), который автоматически обнаруживает небольшой набор базовых форм животных, комбинируя геометрические индуктивные априорные знания с семантической информацией, неявно извлеченной с помощью готового самообучаемого экстрактора признаков. Для обучения такой модели мы также представляем новый крупномасштабный набор данных, включающий разнообразные виды животных. На этапе вывода, получив одно изображение любого четвероногого животного, наша модель реконструирует артикулированную 3D-сетку в режиме прямого прохода за считанные секунды.

English

Learning 3D models of all animals on the Earth requires massively scaling up existing solutions. With this ultimate goal in mind, we develop 3D-Fauna, an approach that learns a pan-category deformable 3D animal model for more than 100 animal species jointly. One crucial bottleneck of modeling animals is the limited availability of training data, which we overcome by simply learning from 2D Internet images. We show that prior category-specific attempts fail to generalize to rare species with limited training images. We address this challenge by introducing the Semantic Bank of Skinned Models (SBSM), which automatically discovers a small set of base animal shapes by combining geometric inductive priors with semantic knowledge implicitly captured by an off-the-shelf self-supervised feature extractor. To train such a model, we also contribute a new large-scale dataset of diverse animal species. At inference time, given a single image of any quadruped animal, our model reconstructs an articulated 3D mesh in a feed-forward fashion within seconds.

Изучение 3D-фауны в интернете

Learning the 3D Fauna of the Web

Аннотация

Support