ChatPaper.aiChatPaper

SAM 3D Body: Robuste Ganzkörper-Rekonstruktion menschlicher Meshes

SAM 3D Body: Robust Full-Body Human Mesh Recovery

February 17, 2026
Autoren: Xitong Yang, Devansh Kukreja, Don Pinkus, Anushka Sagar, Taosha Fan, Jinhyung Park, Soyong Shin, Jinkun Cao, Jiawei Liu, Nicolas Ugrinovic, Matt Feiszli, Jitendra Malik, Piotr Dollar, Kris Kitani
cs.AI

Zusammenfassung

Wir stellen SAM 3D Body (3DB) vor, ein promptbares Modell für die 3D-Rekonstruktion des menschlichen Körpers (Human Mesh Recovery, HMR) aus Einzelbildern, das state-of-the-art Leistung demonstriert, mit starker Generalisierungsfähigkeit und konsistenter Genauigkeit unter diversen "in-the-wild"-Bedingungen. 3DB schätzt die menschliche Pose des Körpers, der Füße und der Hände. Es ist das erste Modell, das eine neue parametrische Mesh-Repräsentation, Momentum Human Rig (MHR), verwendet, die Skelettstruktur und Oberflächenform entkoppelt. 3DB verwendet eine Encoder-Decoder-Architektur und unterstützt auxiliary Prompts, einschließlich 2D-Keypoints und Masken, was eine benutzergeführte Inferenz ähnlich der SAM-Modellfamilie ermöglicht. Wir leiten hochwertige Annotationen aus einer mehrstufigen Annotation-Pipeline ab, die verschiedene Kombinationen aus manueller Keypoint-Annotation, differenzierbarer Optimierung, Multi-View-Geometrie und dichter Keypoint-Erkennung verwendet. Unsere Data-Engine wählt und verarbeitet Daten effizient aus, um Datenvielfalt sicherzustellen, und erfasst ungewöhnliche Posen und seltene Aufnahmebedingungen. Wir stellen einen neuen Evaluierungsdatensatz vor, der nach Posen- und Erscheinungskategorien organisiert ist und eine nuancierte Analyse des Modellverhaltens ermöglicht. Unsere Experimente zeigen eine überlegene Generalisierung und substantielle Verbesserungen gegenüber früheren Methoden sowohl in qualitativen Nutzerpräferenzstudien als auch in traditionellen quantitativen Analysen. Sowohl 3DB als auch MHR sind Open-Source.
English
We introduce SAM 3D Body (3DB), a promptable model for single-image full-body 3D human mesh recovery (HMR) that demonstrates state-of-the-art performance, with strong generalization and consistent accuracy in diverse in-the-wild conditions. 3DB estimates the human pose of the body, feet, and hands. It is the first model to use a new parametric mesh representation, Momentum Human Rig (MHR), which decouples skeletal structure and surface shape. 3DB employs an encoder-decoder architecture and supports auxiliary prompts, including 2D keypoints and masks, enabling user-guided inference similar to the SAM family of models. We derive high-quality annotations from a multi-stage annotation pipeline that uses various combinations of manual keypoint annotation, differentiable optimization, multi-view geometry, and dense keypoint detection. Our data engine efficiently selects and processes data to ensure data diversity, collecting unusual poses and rare imaging conditions. We present a new evaluation dataset organized by pose and appearance categories, enabling nuanced analysis of model behavior. Our experiments demonstrate superior generalization and substantial improvements over prior methods in both qualitative user preference studies and traditional quantitative analysis. Both 3DB and MHR are open-source.
PDF111March 28, 2026