ChatPaper.aiChatPaper

SAM 3D Body : Reconstruction Robuste du Maillage Corporel Humain Complet

SAM 3D Body: Robust Full-Body Human Mesh Recovery

February 17, 2026
Auteurs: Xitong Yang, Devansh Kukreja, Don Pinkus, Anushka Sagar, Taosha Fan, Jinhyung Park, Soyong Shin, Jinkun Cao, Jiawei Liu, Nicolas Ugrinovic, Matt Feiszli, Jitendra Malik, Piotr Dollar, Kris Kitani
cs.AI

Résumé

Nous présentons SAM 3D Body (3DB), un modèle guidable pour la reconstruction 3D complète du corps humain à partir d'une seule image (HMR), qui démontre des performances de pointe, avec une forte généralisation et une précision constante dans diverses conditions en conditions réelles. 3DB estime la posture humaine du corps, des pieds et des mains. C'est le premier modèle à utiliser une nouvelle représentation paramétrique de maillage, Momentum Human Rig (MHR), qui découple la structure squelettique et la forme de surface. 3DB utilise une architecture encodeur-décodeur et prend en charge des instructions auxiliaires, incluant des points-clés 2D et des masques, permettant une inférence guidée par l'utilisateur similaire à la famille de modèles SAM. Nous obtenons des annotations de haute qualité grâce à un pipeline d'annotation multi-étapes utilisant diverses combinaisons d'annotation manuelle de points-clés, d'optimisation différentiable, de géométrie multi-vues et de détection dense de points-clés. Notre moteur de données sélectionne et traite efficacement les données pour garantir leur diversité, collectant des poses inhabituelles et des conditions d'acquisition rares. Nous présentons un nouveau jeu de données d'évaluation organisé par catégories de pose et d'apparence, permettant une analyse nuancée du comportement du modèle. Nos expériences démontrent une généralisation supérieure et des améliorations substantielles par rapport aux méthodes antérieures, à la fois dans des études qualitatives de préférence utilisateur et dans l'analyse quantitative traditionnelle. 3DB et MHR sont tous deux open-source.
English
We introduce SAM 3D Body (3DB), a promptable model for single-image full-body 3D human mesh recovery (HMR) that demonstrates state-of-the-art performance, with strong generalization and consistent accuracy in diverse in-the-wild conditions. 3DB estimates the human pose of the body, feet, and hands. It is the first model to use a new parametric mesh representation, Momentum Human Rig (MHR), which decouples skeletal structure and surface shape. 3DB employs an encoder-decoder architecture and supports auxiliary prompts, including 2D keypoints and masks, enabling user-guided inference similar to the SAM family of models. We derive high-quality annotations from a multi-stage annotation pipeline that uses various combinations of manual keypoint annotation, differentiable optimization, multi-view geometry, and dense keypoint detection. Our data engine efficiently selects and processes data to ensure data diversity, collecting unusual poses and rare imaging conditions. We present a new evaluation dataset organized by pose and appearance categories, enabling nuanced analysis of model behavior. Our experiments demonstrate superior generalization and substantial improvements over prior methods in both qualitative user preference studies and traditional quantitative analysis. Both 3DB and MHR are open-source.
PDF111March 28, 2026