智人:人類視覺模型的基礎Sapiens: Foundation for Human Vision Models
我們提出 Sapiens,這是一個針對四個基本以人為中心的視覺任務的模型系列 - 包括 2D 姿勢估計、身體部位分割、深度估計和表面法向量預測。我們的模型原生支援 1K 高解析度推論,並且非常容易通過簡單微調在超過 3 億張野外人類圖像上預訓練的模型來適應個別任務。我們觀察到,在相同的計算預算下,對一個經過精心策劃的人類圖像數據集進行自監督預訓練顯著提升了多樣的以人為中心任務的性能。結果模型展現出對野外數據的卓越泛化能力,即使標註數據稀缺或完全是合成的情況下也是如此。我們簡單的模型設計還帶來了可擴展性 - 隨著參數數量從 0.3 億擴展到 20 億,模型在各任務上的性能都有所提升。Sapiens 在各種以人為中心的基準測試中始終優於現有基準。我們在 Humans-5K(姿勢)上相對 mAP 提高了 7.6%,Humans-2K(部位分割)上相對 mIoU 提高了 17.1%,Hi4D(深度)上相對 RMSE 提高了 22.4%,以及 THuman2(法向量)上相對角度誤差提高了 53.5%。