SAM 3D Animal: Promptbasierte 3D-Rekonstruktion von Tieren aus Wildbildern

Zusammenfassung

Die 3D-Rekonstruktion von Tieren in freier Wildbahn bleibt aufgrund großer Artenvielfalt, häufiger Okklusionen und der Verbreitung von Szenen mit mehreren Tieren eine Herausforderung, während bestehende Methoden sich überwiegend auf Einzeltier-Settings konzentrieren. Wir stellen SAM 3D Animal vor, das erste aufforderungsbasierte Framework für die 3D-Rekonstruktion mehrerer Tiere aus einem Einzelbild. Aufbauend auf dem parametrischen Tiermodell SMAL+ rekonstruiert unsere Methode gemeinsam mehrere Instanzen und unterstützt flexible Prompts in Form von Schlüsselpunkten und Masken, die eine zuverlässigere Disambiguierung in überfüllten und verdeckten Szenen ermöglichen. Um ein solches Modell zu trainieren, führen wir außerdem Herd3D ein, einen 3D-Datensatz mit mehreren Tieren, der über 5.000 Bilder enthält und darauf ausgelegt ist, die Vielfalt in Bezug auf Arten, Interaktionen und Okklusionsmuster zu erhöhen. Experimente mit den Datensätzen Animal3D, APTv2 und Animal Kingdom zeigen, dass unser Framework sowohl gegenüber bestehenden modellbasierten als auch modellfreien Methoden Spitzenwerte erzielt, was eine skalierbare und effektive Lösung für promptgesteuerte 3D-Tierrekonstruktion in freier Wildbahn darstellt.

English

3D animal reconstruction in the wild remains challenging due to large species variation, frequent occlusions, and the prevalence of multi-animal scenes, while existing methods predominantly focus on single-animal settings. We present SAM 3D Animal, the first promptable framework for multi-animal 3D reconstruction from a single image. Built on the SMAL+ parametric animal model, our method jointly reconstructs multiple instances and supports flexible prompts in the form of keypoints and masks which enable more reliable disambiguation in crowded and occluded scenes. To train such a model, we further introduce Herd3D, a multi-animal 3D dataset containing over 5K images, designed to increase diversity in species, interactions, and occlusion patterns. Experiments on the Animal3D, APTv2, and Animal Kingdom datasets show that our framework achieves state-of-the-art results over both existing model-based and model-free methods, demonstrating a scalable and effective solution for prompt-driven animal 3D reconstruction in the wild.