Sapiens: Fundação para Modelos de Visão Humana
Sapiens: Foundation for Human Vision Models
August 22, 2024
Autores: Rawal Khirodkar, Timur Bagautdinov, Julieta Martinez, Su Zhaoen, Austin James, Peter Selednik, Stuart Anderson, Shunsuke Saito
cs.AI
Resumo
Apresentamos Sapiens, uma família de modelos para quatro tarefas fundamentais de visão centradas no ser humano - estimativa de pose 2D, segmentação de partes do corpo, estimativa de profundidade e previsão de normais de superfície. Nossos modelos suportam nativamente inferência de alta resolução de 1K e são extremamente fáceis de adaptar para tarefas individuais simplesmente ajustando modelos pré-treinados em mais de 300 milhões de imagens de humanos em ambientes naturais. Observamos que, dado o mesmo orçamento computacional, o pré-treinamento auto-supervisionado em um conjunto de dados selecionado de imagens humanas impulsiona significativamente o desempenho para uma variedade de tarefas centradas no ser humano. Os modelos resultantes apresentam uma notável capacidade de generalização para dados em ambientes naturais, mesmo quando os dados rotulados são escassos ou inteiramente sintéticos. Nosso design de modelo simples também traz escalabilidade - o desempenho do modelo em diversas tarefas melhora à medida que escalamos o número de parâmetros de 0,3 a 2 bilhões. Sapiens consistentemente supera os baselines existentes em diversos benchmarks centrados no ser humano. Alcançamos melhorias significativas em relação ao estado-da-arte anterior em Humans-5K (pose) em 7,6 mAP, Humans-2K (parte-seg) em 17,1 mIoU, Hi4D (profundidade) em 22,4% de RMSE relativo, e THuman2 (normal) em 53,5% de erro angular relativo.
English
We present Sapiens, a family of models for four fundamental human-centric
vision tasks - 2D pose estimation, body-part segmentation, depth estimation,
and surface normal prediction. Our models natively support 1K high-resolution
inference and are extremely easy to adapt for individual tasks by simply
fine-tuning models pretrained on over 300 million in-the-wild human images. We
observe that, given the same computational budget, self-supervised pretraining
on a curated dataset of human images significantly boosts the performance for a
diverse set of human-centric tasks. The resulting models exhibit remarkable
generalization to in-the-wild data, even when labeled data is scarce or
entirely synthetic. Our simple model design also brings scalability - model
performance across tasks improves as we scale the number of parameters from 0.3
to 2 billion. Sapiens consistently surpasses existing baselines across various
human-centric benchmarks. We achieve significant improvements over the prior
state-of-the-art on Humans-5K (pose) by 7.6 mAP, Humans-2K (part-seg) by 17.1
mIoU, Hi4D (depth) by 22.4% relative RMSE, and THuman2 (normal) by 53.5%
relative angular error.Summary
AI-Generated Summary