ChatPaper.aiChatPaper

SAM 3D Animal: reconstrucción 3D promptable de animales a partir de imágenes en la naturaleza

SAM 3D Animal: Promptable Animal 3D Reconstruction from Images in the Wild

May 8, 2026
Autores: Xuyi Hu, Jin Lyu, Jiuming Liu, Yebin Liu, Silvia Zuffi, Liang An, Stefan Goetz
cs.AI

Resumen

La reconstrucción 3D de animales en entornos naturales sigue siendo un desafío debido a la gran variación entre especies, las frecuentes oclusiones y la prevalencia de escenas con múltiples animales, mientras que los métodos existentes se centran principalmente en entornos de un solo animal. Presentamos SAM 3D Animal, el primer marco solicitable para la reconstrucción 3D de múltiples animales a partir de una sola imagen. Basado en el modelo paramétrico de animales SMAL+, nuestro método reconstruye conjuntamente múltiples instancias y admite indicaciones flexibles en forma de puntos clave y máscaras, lo que permite una desambiguación más fiable en escenas concurridas y ocluidas. Para entrenar dicho modelo, introducimos además Herd3D, un conjunto de datos 3D multi-animal que contiene más de 5000 imágenes, diseñado para aumentar la diversidad en especies, interacciones y patrones de oclusión. Los experimentos con los conjuntos de datos Animal3D, APTv2 y Animal Kingdom muestran que nuestro marco logra resultados de vanguardia tanto frente a métodos existentes basados en modelos como sin modelos, demostrando una solución escalable y efectiva para la reconstrucción 3D de animales guiada por indicaciones en la naturaleza.
English
3D animal reconstruction in the wild remains challenging due to large species variation, frequent occlusions, and the prevalence of multi-animal scenes, while existing methods predominantly focus on single-animal settings. We present SAM 3D Animal, the first promptable framework for multi-animal 3D reconstruction from a single image. Built on the SMAL+ parametric animal model, our method jointly reconstructs multiple instances and supports flexible prompts in the form of keypoints and masks which enable more reliable disambiguation in crowded and occluded scenes. To train such a model, we further introduce Herd3D, a multi-animal 3D dataset containing over 5K images, designed to increase diversity in species, interactions, and occlusion patterns. Experiments on the Animal3D, APTv2, and Animal Kingdom datasets show that our framework achieves state-of-the-art results over both existing model-based and model-free methods, demonstrating a scalable and effective solution for prompt-driven animal 3D reconstruction in the wild.