Сапиенс: основа для моделей человеческого зрения

Аннотация

Мы представляем Sapiens, семейство моделей для четырех фундаментальных задач компьютерного зрения, ориентированных на человека - оценка позы в 2D, сегментация частей тела, оценка глубины и предсказание нормалей поверхности. Наши модели нативно поддерживают вывод изображений высокого разрешения 1K и легко адаптируются для индивидуальных задач путем простого дообучения моделей, предварительно обученных на более чем 300 миллионах изображений людей в естественной среде. Мы замечаем, что при том же вычислительном бюджете предварительное обучение без учителя на отобранном наборе данных изображений людей значительно повышает производительность для разнообразных задач, связанных с человеком. Полученные модели проявляют замечательную обобщающую способность к данным из естественной среды, даже когда размеченные данные ограничены или полностью синтетические. Наш простой дизайн модели также обеспечивает масштабируемость - производительность модели по различным задачам улучшается при увеличении числа параметров с 0,3 до 2 миллиардов. Sapiens последовательно превосходит существующие базовые уровни по различным бенчмаркам, связанным с человеком. Мы достигаем значительных улучшений по сравнению с предыдущими достижениями на Humans-5K (поза) на 7,6 mAP, Humans-2K (сегментация частей) на 17,1 mIoU, Hi4D (глубина) на 22,4% относительной среднеквадратичной ошибке и THuman2 (нормали) на 53,5% относительной угловой ошибке.

English

We present Sapiens, a family of models for four fundamental human-centric vision tasks - 2D pose estimation, body-part segmentation, depth estimation, and surface normal prediction. Our models natively support 1K high-resolution inference and are extremely easy to adapt for individual tasks by simply fine-tuning models pretrained on over 300 million in-the-wild human images. We observe that, given the same computational budget, self-supervised pretraining on a curated dataset of human images significantly boosts the performance for a diverse set of human-centric tasks. The resulting models exhibit remarkable generalization to in-the-wild data, even when labeled data is scarce or entirely synthetic. Our simple model design also brings scalability - model performance across tasks improves as we scale the number of parameters from 0.3 to 2 billion. Sapiens consistently surpasses existing baselines across various human-centric benchmarks. We achieve significant improvements over the prior state-of-the-art on Humans-5K (pose) by 7.6 mAP, Humans-2K (part-seg) by 17.1 mIoU, Hi4D (depth) by 22.4% relative RMSE, and THuman2 (normal) by 53.5% relative angular error.

Сапиенс: основа для моделей человеческого зрения

Sapiens: Foundation for Human Vision Models

Аннотация

Support