SAM 3D Animal: reconstrucción 3D promptable de animales a partir de imágenes en la naturaleza

Resumen

La reconstrucción 3D de animales en entornos naturales sigue siendo un desafío debido a la gran variación entre especies, las frecuentes oclusiones y la prevalencia de escenas con múltiples animales, mientras que los métodos existentes se centran principalmente en entornos de un solo animal. Presentamos SAM 3D Animal, el primer marco solicitable para la reconstrucción 3D de múltiples animales a partir de una sola imagen. Basado en el modelo paramétrico de animales SMAL+, nuestro método reconstruye conjuntamente múltiples instancias y admite indicaciones flexibles en forma de puntos clave y máscaras, lo que permite una desambiguación más fiable en escenas concurridas y ocluidas. Para entrenar dicho modelo, introducimos además Herd3D, un conjunto de datos 3D multi-animal que contiene más de 5000 imágenes, diseñado para aumentar la diversidad en especies, interacciones y patrones de oclusión. Los experimentos con los conjuntos de datos Animal3D, APTv2 y Animal Kingdom muestran que nuestro marco logra resultados de vanguardia tanto frente a métodos existentes basados en modelos como sin modelos, demostrando una solución escalable y efectiva para la reconstrucción 3D de animales guiada por indicaciones en la naturaleza.

English

3D animal reconstruction in the wild remains challenging due to large species variation, frequent occlusions, and the prevalence of multi-animal scenes, while existing methods predominantly focus on single-animal settings. We present SAM 3D Animal, the first promptable framework for multi-animal 3D reconstruction from a single image. Built on the SMAL+ parametric animal model, our method jointly reconstructs multiple instances and supports flexible prompts in the form of keypoints and masks which enable more reliable disambiguation in crowded and occluded scenes. To train such a model, we further introduce Herd3D, a multi-animal 3D dataset containing over 5K images, designed to increase diversity in species, interactions, and occlusion patterns. Experiments on the Animal3D, APTv2, and Animal Kingdom datasets show that our framework achieves state-of-the-art results over both existing model-based and model-free methods, demonstrating a scalable and effective solution for prompt-driven animal 3D reconstruction in the wild.