SAM 3D Animal: Reconstrução 3D de Animais Guiada por Prompts a partir de Imagens do Mundo Real
SAM 3D Animal: Promptable Animal 3D Reconstruction from Images in the Wild
May 8, 2026
Autores: Xuyi Hu, Jin Lyu, Jiuming Liu, Yebin Liu, Silvia Zuffi, Liang An, Stefan Goetz
cs.AI
Resumo
A reconstrução 3D de animais em ambiente natural continua desafiadora devido à grande variação entre espécies, oclusões frequentes e a prevalência de cenas com múltiplos animais, enquanto os métodos existentes concentram-se predominantemente em cenários de animal único. Apresentamos o SAM 3D Animal, o primeiro framework baseado em prompts para reconstrução 3D de múltiplos animais a partir de uma única imagem. Construído sobre o modelo paramétrico de animal SMAL+, o nosso método reconstroi conjuntamente múltiplas instâncias e suporta prompts flexíveis na forma de pontos-chave e máscaras, que permitem uma desambiguação mais fiável em cenas com aglomeração e oclusão. Para treinar tal modelo, introduzimos ainda o Herd3D, um conjunto de dados 3D multi-animal contendo mais de 5 mil imagens, concebido para aumentar a diversidade em espécies, interações e padrões de oclusão. Experiências nos conjuntos de dados Animal3D, APTv2 e Animal Kingdom mostram que o nosso framework atinge resultados de ponta em relação tanto a métodos baseados em modelos como a métodos livres de modelos existentes, demonstrando uma solução escalável e eficaz para reconstrução 3D de animais orientada por prompts em ambiente natural.
English
3D animal reconstruction in the wild remains challenging due to large species variation, frequent occlusions, and the prevalence of multi-animal scenes, while existing methods predominantly focus on single-animal settings. We present SAM 3D Animal, the first promptable framework for multi-animal 3D reconstruction from a single image. Built on the SMAL+ parametric animal model, our method jointly reconstructs multiple instances and supports flexible prompts in the form of keypoints and masks which enable more reliable disambiguation in crowded and occluded scenes. To train such a model, we further introduce Herd3D, a multi-animal 3D dataset containing over 5K images, designed to increase diversity in species, interactions, and occlusion patterns. Experiments on the Animal3D, APTv2, and Animal Kingdom datasets show that our framework achieves state-of-the-art results over both existing model-based and model-free methods, demonstrating a scalable and effective solution for prompt-driven animal 3D reconstruction in the wild.