SAM 3D Body: Ricostruzione Robusta del Mesh Corporeo Umano Completo

Abstract

Presentiamo SAM 3D Body (3DB), un modello "promptable" per la ricostruzione 3D del mesh corporeo umano completo a partire da una singola immagine (HMR), che dimostra prestazioni all'avanguardia, con una forte generalizzazione e un'accuratezza consistente in diverse condizioni del mondo reale. 3DB stima la postura del corpo, dei piedi e delle mani. È il primo modello a utilizzare una nuova rappresentazione parametrica del mesh, Momentum Human Rig (MHR), che disaccoppia la struttura scheletrica dalla forma della superficie. 3DB impiega un'architettura encoder-decoder e supporta prompt ausiliari, inclusi keypoint 2D e maschere, consentendo un'inferenza guidata dall'utente simile alla famiglia di modelli SAM. Deriviamo annotazioni di alta qualità da una pipeline di annotazione multi-stadio che utilizza varie combinazioni di annotazione manuale di keypoint, ottimizzazione differenziabile, geometria multi-vista e rilevamento di keypoint densi. Il nostro "data engine" seleziona ed elabora i dati in modo efficiente per garantire la diversità dei dati, raccogliendo pose insolite e condizioni di acquisizione rare. Presentiamo un nuovo dataset di valutazione organizzato per categorie di pose e aspetto, che consente un'analisi sfumata del comportamento del modello. I nostri esperimenti dimostrano una generalizzazione superiore e miglioramenti sostanziali rispetto ai metodi precedenti, sia negli studi qualitativi di preferenza utente che nelle tradizionali analisi quantitative. Sia 3DB che MHR sono open-source.

English

We introduce SAM 3D Body (3DB), a promptable model for single-image full-body 3D human mesh recovery (HMR) that demonstrates state-of-the-art performance, with strong generalization and consistent accuracy in diverse in-the-wild conditions. 3DB estimates the human pose of the body, feet, and hands. It is the first model to use a new parametric mesh representation, Momentum Human Rig (MHR), which decouples skeletal structure and surface shape. 3DB employs an encoder-decoder architecture and supports auxiliary prompts, including 2D keypoints and masks, enabling user-guided inference similar to the SAM family of models. We derive high-quality annotations from a multi-stage annotation pipeline that uses various combinations of manual keypoint annotation, differentiable optimization, multi-view geometry, and dense keypoint detection. Our data engine efficiently selects and processes data to ensure data diversity, collecting unusual poses and rare imaging conditions. We present a new evaluation dataset organized by pose and appearance categories, enabling nuanced analysis of model behavior. Our experiments demonstrate superior generalization and substantial improvements over prior methods in both qualitative user preference studies and traditional quantitative analysis. Both 3DB and MHR are open-source.

SAM 3D Body: Ricostruzione Robusta del Mesh Corporeo Umano Completo

SAM 3D Body: Robust Full-Body Human Mesh Recovery

Abstract

Support