SAM 3D Body: Робастное восстановление полного 3D-меша человеческого тела

Аннотация

Мы представляем SAM 3D Body (3DB) — промптабельную модель для восстановления 3D-меша всего тела человека по одному изображению (HMR), которая демонстрирует передовую производительность, обладая высокой способностью к обобщению и стабильной точностью в разнообразных реальных условиях. 3DB оценивает позу тела, стоп и кистей рук. Это первая модель, использующая новое параметрическое представление меша — Momentum Human Rig (MHR), которое разделяет скелетную структуру и форму поверхности. 3DB использует архитектуру кодировщик-декодировщик и поддерживает вспомогательные промпты, включая 2D-ключевые точки и маски, что позволяет проводить вывод с руководством пользователя, аналогично семейству моделей SAM. Мы получаем высококачественные разметки с помощью многоэтапного пайплайна аннотирования, который использует различные комбинации ручной разметки ключевых точек, дифференцируемой оптимизации, многовидовой геометрии и детекции плотных ключевых точек. Наш механизм данных эффективно отбирает и обрабатывает информацию для обеспечения разнообразия данных, собирая нестандартные позы и редкие условия съемки. Мы представляем новый оценочный набор данных, организованный по категориям поз и внешнего вида, что позволяет проводить детальный анализ поведения модели. Наши эксперименты демонстрируют превосходную способность к обобщению и существенное улучшение по сравнению с предыдущими методами как в качественных исследованиях пользовательских предпочтений, так и в традиционном количественном анализе. И 3DB, и MHR являются открытыми проектами.

English

We introduce SAM 3D Body (3DB), a promptable model for single-image full-body 3D human mesh recovery (HMR) that demonstrates state-of-the-art performance, with strong generalization and consistent accuracy in diverse in-the-wild conditions. 3DB estimates the human pose of the body, feet, and hands. It is the first model to use a new parametric mesh representation, Momentum Human Rig (MHR), which decouples skeletal structure and surface shape. 3DB employs an encoder-decoder architecture and supports auxiliary prompts, including 2D keypoints and masks, enabling user-guided inference similar to the SAM family of models. We derive high-quality annotations from a multi-stage annotation pipeline that uses various combinations of manual keypoint annotation, differentiable optimization, multi-view geometry, and dense keypoint detection. Our data engine efficiently selects and processes data to ensure data diversity, collecting unusual poses and rare imaging conditions. We present a new evaluation dataset organized by pose and appearance categories, enabling nuanced analysis of model behavior. Our experiments demonstrate superior generalization and substantial improvements over prior methods in both qualitative user preference studies and traditional quantitative analysis. Both 3DB and MHR are open-source.

SAM 3D Body: Робастное восстановление полного 3D-меша человеческого тела

SAM 3D Body: Robust Full-Body Human Mesh Recovery

Аннотация

Support