Сапиенс: основа для моделей человеческого зрения
Sapiens: Foundation for Human Vision Models
August 22, 2024
Авторы: Rawal Khirodkar, Timur Bagautdinov, Julieta Martinez, Su Zhaoen, Austin James, Peter Selednik, Stuart Anderson, Shunsuke Saito
cs.AI
Аннотация
Мы представляем Sapiens, семейство моделей для четырех фундаментальных задач компьютерного зрения, ориентированных на человека - оценка позы в 2D, сегментация частей тела, оценка глубины и предсказание нормалей поверхности. Наши модели нативно поддерживают вывод изображений высокого разрешения 1K и легко адаптируются для индивидуальных задач путем простого дообучения моделей, предварительно обученных на более чем 300 миллионах изображений людей в естественной среде. Мы замечаем, что при том же вычислительном бюджете предварительное обучение без учителя на отобранном наборе данных изображений людей значительно повышает производительность для разнообразных задач, связанных с человеком. Полученные модели проявляют замечательную обобщающую способность к данным из естественной среды, даже когда размеченные данные ограничены или полностью синтетические. Наш простой дизайн модели также обеспечивает масштабируемость - производительность модели по различным задачам улучшается при увеличении числа параметров с 0,3 до 2 миллиардов. Sapiens последовательно превосходит существующие базовые уровни по различным бенчмаркам, связанным с человеком. Мы достигаем значительных улучшений по сравнению с предыдущими достижениями на Humans-5K (поза) на 7,6 mAP, Humans-2K (сегментация частей) на 17,1 mIoU, Hi4D (глубина) на 22,4% относительной среднеквадратичной ошибке и THuman2 (нормали) на 53,5% относительной угловой ошибке.
English
We present Sapiens, a family of models for four fundamental human-centric
vision tasks - 2D pose estimation, body-part segmentation, depth estimation,
and surface normal prediction. Our models natively support 1K high-resolution
inference and are extremely easy to adapt for individual tasks by simply
fine-tuning models pretrained on over 300 million in-the-wild human images. We
observe that, given the same computational budget, self-supervised pretraining
on a curated dataset of human images significantly boosts the performance for a
diverse set of human-centric tasks. The resulting models exhibit remarkable
generalization to in-the-wild data, even when labeled data is scarce or
entirely synthetic. Our simple model design also brings scalability - model
performance across tasks improves as we scale the number of parameters from 0.3
to 2 billion. Sapiens consistently surpasses existing baselines across various
human-centric benchmarks. We achieve significant improvements over the prior
state-of-the-art on Humans-5K (pose) by 7.6 mAP, Humans-2K (part-seg) by 17.1
mIoU, Hi4D (depth) by 22.4% relative RMSE, and THuman2 (normal) by 53.5%
relative angular error.Summary
AI-Generated Summary