Sapiens: Fundação para Modelos de Visão HumanaSapiens: Foundation for Human Vision Models
Apresentamos Sapiens, uma família de modelos para quatro tarefas fundamentais de visão centradas no ser humano - estimativa de pose 2D, segmentação de partes do corpo, estimativa de profundidade e previsão de normais de superfície. Nossos modelos suportam nativamente inferência de alta resolução de 1K e são extremamente fáceis de adaptar para tarefas individuais simplesmente ajustando modelos pré-treinados em mais de 300 milhões de imagens de humanos em ambientes naturais. Observamos que, dado o mesmo orçamento computacional, o pré-treinamento auto-supervisionado em um conjunto de dados selecionado de imagens humanas impulsiona significativamente o desempenho para uma variedade de tarefas centradas no ser humano. Os modelos resultantes apresentam uma notável capacidade de generalização para dados em ambientes naturais, mesmo quando os dados rotulados são escassos ou inteiramente sintéticos. Nosso design de modelo simples também traz escalabilidade - o desempenho do modelo em diversas tarefas melhora à medida que escalamos o número de parâmetros de 0,3 a 2 bilhões. Sapiens consistentemente supera os baselines existentes em diversos benchmarks centrados no ser humano. Alcançamos melhorias significativas em relação ao estado-da-arte anterior em Humans-5K (pose) em 7,6 mAP, Humans-2K (parte-seg) em 17,1 mIoU, Hi4D (profundidade) em 22,4% de RMSE relativo, e THuman2 (normal) em 53,5% de erro angular relativo.