SAM 3D Animal: Подсказываемая 3D-реконструкция животных по изображениям в естественных условиях
SAM 3D Animal: Promptable Animal 3D Reconstruction from Images in the Wild
May 8, 2026
Авторы: Xuyi Hu, Jin Lyu, Jiuming Liu, Yebin Liu, Silvia Zuffi, Liang An, Stefan Goetz
cs.AI
Аннотация
Трехмерная реконструкция животных в естественных условиях остается сложной задачей из-за большого разнообразия видов, частых перекрытий и преобладания сцен с несколькими животными, тогда как существующие методы в основном ориентированы на сцены с одним животным. Мы представляем SAM 3D Animal — первую гибкую систему для трехмерной реконструкции нескольких животных по одному изображению. Основанный на параметрической модели животных SMAL+, наш метод совместно реконструирует несколько объектов и поддерживает гибкие подсказки в виде ключевых точек и масок, что позволяет более надежно устранять неоднозначность в перегруженных и затененных сценах. Для обучения такой модели мы дополнительно представляем Herd3D — набор данных для трехмерной реконструкции нескольких животных, содержащий более 5 000 изображений, предназначенный для увеличения разнообразия видов, взаимодействий и схем перекрытия. Эксперименты на наборах данных Animal3D, APTv2 и Animal Kingdom показывают, что наша система достигает передовых результатов по сравнению как с существующими модельно-ориентированными, так и с бесмодельными методами, демонстрируя масштабируемое и эффективное решение для управляемой подсказками трехмерной реконструкции животных в естественных условиях.
English
3D animal reconstruction in the wild remains challenging due to large species variation, frequent occlusions, and the prevalence of multi-animal scenes, while existing methods predominantly focus on single-animal settings. We present SAM 3D Animal, the first promptable framework for multi-animal 3D reconstruction from a single image. Built on the SMAL+ parametric animal model, our method jointly reconstructs multiple instances and supports flexible prompts in the form of keypoints and masks which enable more reliable disambiguation in crowded and occluded scenes. To train such a model, we further introduce Herd3D, a multi-animal 3D dataset containing over 5K images, designed to increase diversity in species, interactions, and occlusion patterns. Experiments on the Animal3D, APTv2, and Animal Kingdom datasets show that our framework achieves state-of-the-art results over both existing model-based and model-free methods, demonstrating a scalable and effective solution for prompt-driven animal 3D reconstruction in the wild.