サピエンス:人間のビジョンモデルの基盤
Sapiens: Foundation for Human Vision Models
August 22, 2024
著者: Rawal Khirodkar, Timur Bagautdinov, Julieta Martinez, Su Zhaoen, Austin James, Peter Selednik, Stuart Anderson, Shunsuke Saito
cs.AI
要旨
私たちは、Sapiensというモデルファミリーを提案します。このファミリーは、4つの基本的な人間中心のビジョンタスク、つまり2Dポーズ推定、ボディパーツセグメンテーション、深度推定、および表面法線予測に使用されます。当社のモデルは、ネイティブで1Kの高解像度推論をサポートし、3億枚以上の野生の人間画像で事前学習されたモデルを単純に微調整することで、個々のタスクに簡単に適応できます。同じ計算予算を使用した場合、人間画像のキュレーションされたデータセットでの自己教師付き事前学習は、多様な人間中心のタスクのパフォーマンスを大幅に向上させることが観察されます。結果として得られるモデルは、ラベル付きデータが少ないか完全に合成されている場合でも、野生のデータに対する顕著な汎化能力を示します。また、当社のシンプルなモデル設計は、拡張性ももたらします。パラメータ数を0.3から20億までスケーリングすると、タスク全体でのモデルパフォーマンスが向上します。Sapiensは、さまざまな人間中心のベンチマークで既存のベースラインを一貫して上回っています。Poseに関するHumans-5Kでは、mAPが7.6、Part-segに関するHumans-2KではmIoUが17.1、Depthに関するHi4Dでは相対RMSEが22.4%、Normalに関するTHuman2では相対角度誤差が53.5%改善されました。
English
We present Sapiens, a family of models for four fundamental human-centric
vision tasks - 2D pose estimation, body-part segmentation, depth estimation,
and surface normal prediction. Our models natively support 1K high-resolution
inference and are extremely easy to adapt for individual tasks by simply
fine-tuning models pretrained on over 300 million in-the-wild human images. We
observe that, given the same computational budget, self-supervised pretraining
on a curated dataset of human images significantly boosts the performance for a
diverse set of human-centric tasks. The resulting models exhibit remarkable
generalization to in-the-wild data, even when labeled data is scarce or
entirely synthetic. Our simple model design also brings scalability - model
performance across tasks improves as we scale the number of parameters from 0.3
to 2 billion. Sapiens consistently surpasses existing baselines across various
human-centric benchmarks. We achieve significant improvements over the prior
state-of-the-art on Humans-5K (pose) by 7.6 mAP, Humans-2K (part-seg) by 17.1
mIoU, Hi4D (depth) by 22.4% relative RMSE, and THuman2 (normal) by 53.5%
relative angular error.Summary
AI-Generated Summary