Sapiens2

Samenvatting

Wij presenteren Sapiens2, een modellenfamilie van high-resolution transformers voor mensgerichte beeldverwerking, gericht op generalisatie, veelzijdigheid en hoogwaardige resultaten. Onze modellen variëren in grootte van 0,4 tot 5 miljard parameters, met een native resolutie van 1K en hiërarchische varianten die 4K ondersteunen. Sapiens2 verbetert zijn voorganger aanzienlijk in zowel voorafgaande als nabehandelingstraining. Ten eerste combineren we gemaskeerde reconstructie van beelden met zelf-gedistilleerde contrastieve doelen om kenmerken te leren die zowel laagwaardige details (voor dichte voorspelling) als hoogwaardige semantiek (voor zero-shot of few-label instellingen) vastleggen. Onze evaluaties tonen aan dat deze verenigde pretrainingsdoelstelling beter geschikt is voor een breder scala aan downstreamtaken. Ten tweede pretrainen we langs de data-as op een gecureerde dataset van 1 miljard hoogwaardige mensbeelden en verbeteren we de kwaliteit en hoeveelheid van taakannotaties. Ten derde integreren we architectonische verbeteringen van frontiermodellen die langere trainingsschema's met verbeterde stabiliteit mogelijk maken. Onze 4K-modellen gebruiken windowed attention om over langere ruimtelijke context te redeneren en worden gepretraind met 2K-uitvoerresolutie. Sapiens2 vestigt een nieuwe state-of-the-art en verbetert ten opzichte van de eerste generatie op pose (+4 mAP), lichaamsdelsegmentatie (+24,3 mIoU), normale schatting (45,6% lagere hoekfout) en breidt uit naar nieuwe taken zoals pointmap- en albedo-schatting. Code: https://github.com/facebookresearch/sapiens2

English

We present Sapiens2, a model family of high-resolution transformers for human-centric vision focused on generalization, versatility, and high-fidelity outputs. Our model sizes range from 0.4 to 5 billion parameters, with native 1K resolution and hierarchical variants that support 4K. Sapiens2 substantially improves over its predecessor in both pretraining and post-training. First, to learn features that capture low-level details (for dense prediction) and high-level semantics (for zero-shot or few-label settings), we combine masked image reconstruction with self-distilled contrastive objectives. Our evaluations show that this unified pretraining objective is better suited for a wider range of downstream tasks. Second, along the data axis, we pretrain on a curated dataset of 1 billion high-quality human images and improve the quality and quantity of task annotations. Third, architecturally, we incorporate advances from frontier models that enable longer training schedules with improved stability. Our 4K models adopt windowed attention to reason over longer spatial context and are pretrained with 2K output resolution. Sapiens2 sets a new state-of-the-art and improves over the first generation on pose (+4 mAP), body-part segmentation (+24.3 mIoU), normal estimation (45.6% lower angular error) and extends to new tasks such as pointmap and albedo estimation. Code: https://github.com/facebookresearch/sapiens2