Сапиенс: основа для моделей человеческого зренияSapiens: Foundation for Human Vision Models
Мы представляем Sapiens, семейство моделей для четырех фундаментальных задач компьютерного зрения, ориентированных на человека - оценка позы в 2D, сегментация частей тела, оценка глубины и предсказание нормалей поверхности. Наши модели нативно поддерживают вывод изображений высокого разрешения 1K и легко адаптируются для индивидуальных задач путем простого дообучения моделей, предварительно обученных на более чем 300 миллионах изображений людей в естественной среде. Мы замечаем, что при том же вычислительном бюджете предварительное обучение без учителя на отобранном наборе данных изображений людей значительно повышает производительность для разнообразных задач, связанных с человеком. Полученные модели проявляют замечательную обобщающую способность к данным из естественной среды, даже когда размеченные данные ограничены или полностью синтетические. Наш простой дизайн модели также обеспечивает масштабируемость - производительность модели по различным задачам улучшается при увеличении числа параметров с 0,3 до 2 миллиардов. Sapiens последовательно превосходит существующие базовые уровни по различным бенчмаркам, связанным с человеком. Мы достигаем значительных улучшений по сравнению с предыдущими достижениями на Humans-5K (поза) на 7,6 mAP, Humans-2K (сегментация частей) на 17,1 mIoU, Hi4D (глубина) на 22,4% относительной среднеквадратичной ошибке и THuman2 (нормали) на 53,5% относительной угловой ошибке.