SAM 3D Body: Robuiste Volledige-Lichaam Menselijk Mesh Herstel
SAM 3D Body: Robust Full-Body Human Mesh Recovery
February 17, 2026
Auteurs: Xitong Yang, Devansh Kukreja, Don Pinkus, Anushka Sagar, Taosha Fan, Jinhyung Park, Soyong Shin, Jinkun Cao, Jiawei Liu, Nicolas Ugrinovic, Matt Feiszli, Jitendra Malik, Piotr Dollar, Kris Kitani
cs.AI
Samenvatting
Wij introduceren SAM 3D Body (3DB), een promptbaar model voor het herstellen van een volledig 3D-menselijk maaswerk (HMR) vanuit een enkele afbeelding, dat state-of-the-art prestaties demonstreert met sterke generalisatie en consistente nauwkeurigheid onder diverse real-world omstandigheden. 3DB schat de menselijke houding van het lichaam, de voeten en de handen. Het is het eerste model dat een nieuwe parametrische maasweergave gebruikt, Momentum Human Rig (MHR), die de skeletstructuur en de oppervlaktevorm ontkoppelt. 3DB maakt gebruik van een encoder-decoder architectuur en ondersteunt aanvullende prompts, waaronder 2D-sleutelpunten en maskers, wat gebruikersgestuurde inferentie mogelijk maakt, vergelijkbaar met de SAM-familie van modellen. Wij verkrijgen hoogwaardige annotaties via een pijplijn voor meerfasenannotatie die verschillende combinaties gebruikt van handmatige sleutelpuntannotatie, differentieerbare optimalisatie, multi-view geometrie en detectie van dichte sleutelpunten. Onze data-engine selecteert en verwerkt gegevens efficiënt om gegevensdiversiteit te waarborgen, waarbij ongebruikelijke houdingen en zeldzame beeldvormingsomstandigheden worden verzameld. Wij presenteren een nieuwe evaluatiedataset, georganiseerd volgens houdings- en uiterlijkcategorieën, die een genuanceerde analyse van modelgedrag mogelijk maakt. Onze experimenten tonen superieure generalisatie en substantiële verbeteringen ten opzichte van eerdere methoden aan, zowel in kwalitatieve gebruikersvoorkeurstudies als in traditionele kwantitatieve analyses. Zowel 3DB als MHR zijn open-source.
English
We introduce SAM 3D Body (3DB), a promptable model for single-image full-body 3D human mesh recovery (HMR) that demonstrates state-of-the-art performance, with strong generalization and consistent accuracy in diverse in-the-wild conditions. 3DB estimates the human pose of the body, feet, and hands. It is the first model to use a new parametric mesh representation, Momentum Human Rig (MHR), which decouples skeletal structure and surface shape. 3DB employs an encoder-decoder architecture and supports auxiliary prompts, including 2D keypoints and masks, enabling user-guided inference similar to the SAM family of models. We derive high-quality annotations from a multi-stage annotation pipeline that uses various combinations of manual keypoint annotation, differentiable optimization, multi-view geometry, and dense keypoint detection. Our data engine efficiently selects and processes data to ensure data diversity, collecting unusual poses and rare imaging conditions. We present a new evaluation dataset organized by pose and appearance categories, enabling nuanced analysis of model behavior. Our experiments demonstrate superior generalization and substantial improvements over prior methods in both qualitative user preference studies and traditional quantitative analysis. Both 3DB and MHR are open-source.