Sapiens : Fondation pour les Modèles de Vision Humaine
Sapiens: Foundation for Human Vision Models
August 22, 2024
Auteurs: Rawal Khirodkar, Timur Bagautdinov, Julieta Martinez, Su Zhaoen, Austin James, Peter Selednik, Stuart Anderson, Shunsuke Saito
cs.AI
Résumé
Nous présentons Sapiens, une famille de modèles pour quatre tâches de vision fondamentales centrées sur l'humain - estimation de la pose 2D, segmentation des parties du corps, estimation de la profondeur et prédiction de la normale de surface. Nos modèles prennent en charge nativement une inférence haute résolution de 1K et sont extrêmement faciles à adapter pour des tâches individuelles en simplement affinant les modèles pré-entraînés sur plus de 300 millions d'images humaines en conditions réelles. Nous observons que, avec le même budget computationnel, la pré-entraînement auto-supervisé sur un ensemble de données sélectionné d'images humaines améliore significativement les performances pour un ensemble diversifié de tâches centrées sur l'humain. Les modèles résultants présentent une généralisation remarquable aux données en conditions réelles, même lorsque les données étiquetées sont rares ou entièrement synthétiques. Notre conception de modèle simple permet également une scalabilité - les performances du modèle sur les tâches s'améliorent à mesure que nous augmentons le nombre de paramètres de 0,3 à 2 milliards. Sapiens surpasse de manière constante les références existantes sur divers bancs d'essai centrés sur l'humain. Nous obtenons des améliorations significatives par rapport à l'état de l'art précédent sur Humans-5K (pose) de 7,6 mAP, Humans-2K (segmentation des parties) de 17,1 mIoU, Hi4D (profondeur) de 22,4% d'EMRS relatif, et THuman2 (normale) de 53,5% d'erreur angulaire relative.
English
We present Sapiens, a family of models for four fundamental human-centric
vision tasks - 2D pose estimation, body-part segmentation, depth estimation,
and surface normal prediction. Our models natively support 1K high-resolution
inference and are extremely easy to adapt for individual tasks by simply
fine-tuning models pretrained on over 300 million in-the-wild human images. We
observe that, given the same computational budget, self-supervised pretraining
on a curated dataset of human images significantly boosts the performance for a
diverse set of human-centric tasks. The resulting models exhibit remarkable
generalization to in-the-wild data, even when labeled data is scarce or
entirely synthetic. Our simple model design also brings scalability - model
performance across tasks improves as we scale the number of parameters from 0.3
to 2 billion. Sapiens consistently surpasses existing baselines across various
human-centric benchmarks. We achieve significant improvements over the prior
state-of-the-art on Humans-5K (pose) by 7.6 mAP, Humans-2K (part-seg) by 17.1
mIoU, Hi4D (depth) by 22.4% relative RMSE, and THuman2 (normal) by 53.5%
relative angular error.Summary
AI-Generated Summary