Sapiens2

Abstract

Presentiamo Sapiens2, una famiglia di modelli transformer ad alta risoluzione per la visione incentrata sull'umano, focalizzata su generalizzazione, versatilità e output ad alta fedeltà. Le dimensioni dei nostri modelli variano da 0,4 a 5 miliardi di parametri, con risoluzione nativa 1K e varianti gerarchiche che supportano il 4K. Sapiens2 migliora sostanzialmente il suo predecessore sia nel pre-training che nel post-training. In primo luogo, per apprendere feature che catturino dettagli di basso livello (per la predizione densa) e semantica di alto livello (per impostazioni zero-shot o few-label), combiniamo la ricostruzione di immagini mascherate con obiettivi contrastivi auto-distillati. Le nostre valutazioni mostrano che questo obiettivo di pre-training unificato è più adatto a un'ampia gamma di task downstream. In secondo luogo, lungo l'asse dei dati, effettuiamo il pre-training su un dataset curato di 1 miliardo di immagini umane di alta qualità e miglioriamo la qualità e la quantità delle annotazioni per i task. In terzo luogo, a livello architetturale, incorporiamo progressi da modelli all'avanguardia che consentono cicli di training più lunghi con stabilità migliorata. I nostri modelli 4K adottano l'attenzione a finestra per ragionare su contesti spaziali più lunghi e sono pre-addestrati con risoluzione di output 2K. Sapiens2 stabilisce un nuovo stato dell'arte e migliora rispetto alla prima generazione sulla posa (+4 mAP), sulla segmentazione delle parti del corpo (+24,3 mIoU), sulla stima della normale (45,6% di errore angolare in meno) e si estende a nuovi task come la stima della pointmap e dell'albedo. Codice: https://github.com/facebookresearch/sapiens2

English

We present Sapiens2, a model family of high-resolution transformers for human-centric vision focused on generalization, versatility, and high-fidelity outputs. Our model sizes range from 0.4 to 5 billion parameters, with native 1K resolution and hierarchical variants that support 4K. Sapiens2 substantially improves over its predecessor in both pretraining and post-training. First, to learn features that capture low-level details (for dense prediction) and high-level semantics (for zero-shot or few-label settings), we combine masked image reconstruction with self-distilled contrastive objectives. Our evaluations show that this unified pretraining objective is better suited for a wider range of downstream tasks. Second, along the data axis, we pretrain on a curated dataset of 1 billion high-quality human images and improve the quality and quantity of task annotations. Third, architecturally, we incorporate advances from frontier models that enable longer training schedules with improved stability. Our 4K models adopt windowed attention to reason over longer spatial context and are pretrained with 2K output resolution. Sapiens2 sets a new state-of-the-art and improves over the first generation on pose (+4 mAP), body-part segmentation (+24.3 mIoU), normal estimation (45.6% lower angular error) and extends to new tasks such as pointmap and albedo estimation. Code: https://github.com/facebookresearch/sapiens2