SAM 3D Body: Recuperación Robusta de Mallas Corporales Humanas Completas

Resumen

Presentamos SAM 3D Body (3DB), un modelo promptable para la recuperación de mallas humanas 3D de cuerpo completo a partir de una sola imagen que demuestra un rendimiento de vanguardia, con una fuerte generalización y precisión consistente en diversas condiciones del mundo real. 3DB estima la postura humana del cuerpo, los pies y las manos. Es el primer modelo en utilizar una nueva representación paramétrica de malla, Momentum Human Rig (MHR), que desacopla la estructura esquelética y la forma de la superficie. 3DB emplea una arquitectura codificador-decodificador y admite prompts auxiliares, incluyendo puntos clave 2D y máscaras, permitiendo una inferencia guiada por el usuario similar a la familia de modelos SAM. Derivamos anotaciones de alta calidad a partir de un pipeline de anotación multi-etapa que utiliza varias combinaciones de anotación manual de puntos clave, optimización diferenciable, geometría multi-vista y detección densa de puntos clave. Nuestro motor de datos selecciona y procesa información de manera eficiente para garantizar la diversidad de los datos, recolectando poses inusuales y condiciones de imagen poco comunes. Presentamos un nuevo conjunto de datos de evaluación organizado por categorías de pose y apariencia, permitiendo un análisis detallado del comportamiento del modelo. Nuestros experimentos demuestran una generalización superior y mejoras sustanciales respecto a métodos anteriores, tanto en estudios cualitativos de preferencia de usuarios como en análisis cuantitativos tradicionales. Tanto 3DB como MHR son de código abierto.

English

We introduce SAM 3D Body (3DB), a promptable model for single-image full-body 3D human mesh recovery (HMR) that demonstrates state-of-the-art performance, with strong generalization and consistent accuracy in diverse in-the-wild conditions. 3DB estimates the human pose of the body, feet, and hands. It is the first model to use a new parametric mesh representation, Momentum Human Rig (MHR), which decouples skeletal structure and surface shape. 3DB employs an encoder-decoder architecture and supports auxiliary prompts, including 2D keypoints and masks, enabling user-guided inference similar to the SAM family of models. We derive high-quality annotations from a multi-stage annotation pipeline that uses various combinations of manual keypoint annotation, differentiable optimization, multi-view geometry, and dense keypoint detection. Our data engine efficiently selects and processes data to ensure data diversity, collecting unusual poses and rare imaging conditions. We present a new evaluation dataset organized by pose and appearance categories, enabling nuanced analysis of model behavior. Our experiments demonstrate superior generalization and substantial improvements over prior methods in both qualitative user preference studies and traditional quantitative analysis. Both 3DB and MHR are open-source.

SAM 3D Body: Recuperación Robusta de Mallas Corporales Humanas Completas

SAM 3D Body: Robust Full-Body Human Mesh Recovery

Resumen

Support