SAM 3D Body: Recuperação Robusta de Malha Corporal Humana Completa

Resumo

Apresentamos o SAM 3D Body (3DB), um modelo "promptável" para a recuperação de malha humana 3D de corpo inteiro a partir de uma única imagem, que demonstra desempenho de última geração, com forte generalização e precisão consistente em diversas condições do mundo real. O 3DB estima a pose humana do corpo, pés e mãos. É o primeiro modelo a utilizar uma nova representação paramétrica de malha, o Momentum Human Rig (MHR), que desacopla a estrutura esquelética da forma da superfície. O 3DB emprega uma arquitetura codificador-decodificador e suporta *prompts* auxiliares, incluindo *keypoints* 2D e máscaras, permitindo uma inferência guiada pelo usuário, semelhante à família de modelos SAM. Derivamos anotações de alta qualidade de um *pipeline* de anotação em múltiplos estágios que utiliza várias combinações de anotação manual de *keypoints*, otimização diferenciável, geometria multi-visada e detecção densa de *keypoints*. Nosso motor de dados seleciona e processa dados de forma eficiente para garantir a diversidade dos dados, coletando poses incomuns e condições de imagem raras. Apresentamos um novo conjunto de dados de avaliação organizado por categorias de pose e aparência, permitindo uma análise nuances do comportamento do modelo. Nossos experimentos demonstram uma generalização superior e melhorias substanciais em relação a métodos anteriores, tanto em estudos qualitativos de preferência do usuário quanto na análise quantitativa tradicional. Tanto o 3DB quanto o MHR são de código aberto.

English

We introduce SAM 3D Body (3DB), a promptable model for single-image full-body 3D human mesh recovery (HMR) that demonstrates state-of-the-art performance, with strong generalization and consistent accuracy in diverse in-the-wild conditions. 3DB estimates the human pose of the body, feet, and hands. It is the first model to use a new parametric mesh representation, Momentum Human Rig (MHR), which decouples skeletal structure and surface shape. 3DB employs an encoder-decoder architecture and supports auxiliary prompts, including 2D keypoints and masks, enabling user-guided inference similar to the SAM family of models. We derive high-quality annotations from a multi-stage annotation pipeline that uses various combinations of manual keypoint annotation, differentiable optimization, multi-view geometry, and dense keypoint detection. Our data engine efficiently selects and processes data to ensure data diversity, collecting unusual poses and rare imaging conditions. We present a new evaluation dataset organized by pose and appearance categories, enabling nuanced analysis of model behavior. Our experiments demonstrate superior generalization and substantial improvements over prior methods in both qualitative user preference studies and traditional quantitative analysis. Both 3DB and MHR are open-source.