Sapiens: Fundament voor Modellen van Menselijk ZichtSapiens: Foundation for Human Vision Models
We presenteren Sapiens, een familie van modellen voor vier fundamentele, mensgerichte visietaken: 2D-pose-estimatie, lichaamsdelsegmentatie, diepte-estimatie en oppervlaktenormaalvoorspelling. Onze modellen ondersteunen standaard 1K hoge-resolutie inferentie en zijn extreem eenvoudig aan te passen voor individuele taken door simpelweg modellen te fine-tunen die vooraf zijn getraind op meer dan 300 miljoen in-the-wild menselijke afbeeldingen. We observeren dat, bij hetzelfde rekenbudget, zelfgesuperviseerde voorafgaande training op een gecureerde dataset van menselijke afbeeldingen de prestaties voor een diverse set van mensgerichte taken aanzienlijk verbetert. De resulterende modellen vertonen opmerkelijke generalisatie naar in-the-wild data, zelfs wanneer gelabelde data schaars is of volledig synthetisch. Onze eenvoudige modelontwerp brengt ook schaalbaarheid met zich mee: de modelprestaties over taken verbeteren naarmate we het aantal parameters schalen van 0,3 naar 2 miljard. Sapiens overtreft consistent bestaande benchmarks over verschillende mensgerichte benchmarks. We behalen aanzienlijke verbeteringen ten opzichte van de vorige state-of-the-art op Humans-5K (pose) met 7,6 mAP, Humans-2K (part-seg) met 17,1 mIoU, Hi4D (diepte) met 22,4% relatieve RMSE, en THuman2 (normaal) met 53,5% relatieve hoekfout.