Sapiens: Fundament voor Modellen van Menselijk Zicht
Sapiens: Foundation for Human Vision Models
August 22, 2024
Auteurs: Rawal Khirodkar, Timur Bagautdinov, Julieta Martinez, Su Zhaoen, Austin James, Peter Selednik, Stuart Anderson, Shunsuke Saito
cs.AI
Samenvatting
We presenteren Sapiens, een familie van modellen voor vier fundamentele, mensgerichte visietaken: 2D-pose-estimatie, lichaamsdelsegmentatie, diepte-estimatie en oppervlaktenormaalvoorspelling. Onze modellen ondersteunen standaard 1K hoge-resolutie inferentie en zijn extreem eenvoudig aan te passen voor individuele taken door simpelweg modellen te fine-tunen die vooraf zijn getraind op meer dan 300 miljoen in-the-wild menselijke afbeeldingen. We observeren dat, bij hetzelfde rekenbudget, zelfgesuperviseerde voorafgaande training op een gecureerde dataset van menselijke afbeeldingen de prestaties voor een diverse set van mensgerichte taken aanzienlijk verbetert. De resulterende modellen vertonen opmerkelijke generalisatie naar in-the-wild data, zelfs wanneer gelabelde data schaars is of volledig synthetisch. Onze eenvoudige modelontwerp brengt ook schaalbaarheid met zich mee: de modelprestaties over taken verbeteren naarmate we het aantal parameters schalen van 0,3 naar 2 miljard. Sapiens overtreft consistent bestaande benchmarks over verschillende mensgerichte benchmarks. We behalen aanzienlijke verbeteringen ten opzichte van de vorige state-of-the-art op Humans-5K (pose) met 7,6 mAP, Humans-2K (part-seg) met 17,1 mIoU, Hi4D (diepte) met 22,4% relatieve RMSE, en THuman2 (normaal) met 53,5% relatieve hoekfout.
English
We present Sapiens, a family of models for four fundamental human-centric
vision tasks - 2D pose estimation, body-part segmentation, depth estimation,
and surface normal prediction. Our models natively support 1K high-resolution
inference and are extremely easy to adapt for individual tasks by simply
fine-tuning models pretrained on over 300 million in-the-wild human images. We
observe that, given the same computational budget, self-supervised pretraining
on a curated dataset of human images significantly boosts the performance for a
diverse set of human-centric tasks. The resulting models exhibit remarkable
generalization to in-the-wild data, even when labeled data is scarce or
entirely synthetic. Our simple model design also brings scalability - model
performance across tasks improves as we scale the number of parameters from 0.3
to 2 billion. Sapiens consistently surpasses existing baselines across various
human-centric benchmarks. We achieve significant improvements over the prior
state-of-the-art on Humans-5K (pose) by 7.6 mAP, Humans-2K (part-seg) by 17.1
mIoU, Hi4D (depth) by 22.4% relative RMSE, and THuman2 (normal) by 53.5%
relative angular error.Summary
AI-Generated Summary