ChatPaper.aiChatPaper

SAM 3D Animal : Reconstruction 3D promptable d'animaux à partir d'images dans la nature

SAM 3D Animal: Promptable Animal 3D Reconstruction from Images in the Wild

May 8, 2026
Auteurs: Xuyi Hu, Jin Lyu, Jiuming Liu, Yebin Liu, Silvia Zuffi, Liang An, Stefan Goetz
cs.AI

Résumé

La reconstruction 3D d'animaux dans la nature reste difficile en raison de la grande variété des espèces, des occlusions fréquentes et de la prévalence de scènes multi-animaux, alors que les méthodes existantes se concentrent principalement sur des contextes à animal unique. Nous présentons SAM 3D Animal, le premier cadre promptable pour la reconstruction 3D multi-animaux à partir d'une seule image. Construite sur le modèle paramétrique animal SMAL+, notre méthode reconstruit conjointement plusieurs instances et prend en charge des invites (prompts) flexibles sous forme de points clés et de masques, ce qui permet une désambiguïsation plus fiable dans les scènes encombrées et occluses. Pour entraîner un tel modèle, nous introduisons également Herd3D, un jeu de données 3D multi-animaux contenant plus de 5 000 images, conçu pour accroître la diversité des espèces, des interactions et des schémas d'occlusion. Les expériences sur les ensembles de données Animal3D, APTv2 et Animal Kingdom montrent que notre cadre atteint des résultats de pointe par rapport aux méthodes existantes, qu'elles soient basées sur modèle ou sans modèle, démontrant ainsi une solution scalable et efficace pour la reconstruction 3D d'animaux pilotée par prompts dans la nature.
English
3D animal reconstruction in the wild remains challenging due to large species variation, frequent occlusions, and the prevalence of multi-animal scenes, while existing methods predominantly focus on single-animal settings. We present SAM 3D Animal, the first promptable framework for multi-animal 3D reconstruction from a single image. Built on the SMAL+ parametric animal model, our method jointly reconstructs multiple instances and supports flexible prompts in the form of keypoints and masks which enable more reliable disambiguation in crowded and occluded scenes. To train such a model, we further introduce Herd3D, a multi-animal 3D dataset containing over 5K images, designed to increase diversity in species, interactions, and occlusion patterns. Experiments on the Animal3D, APTv2, and Animal Kingdom datasets show that our framework achieves state-of-the-art results over both existing model-based and model-free methods, demonstrating a scalable and effective solution for prompt-driven animal 3D reconstruction in the wild.