Sapiens2

Resumo

Apresentamos a Sapiens2, uma família de modelos de transformers de alta resolução para visão centrada no ser humano, focada em generalização, versatilidade e saídas de alta fidelidade. Nossos modelos variam em tamanho de 0,4 a 5 bilhões de parâmetros, com resolução nativa de 1K e variantes hierárquicas que suportam 4K. A Sapiens2 apresenta uma melhoria substancial em relação à sua predecessora, tanto no pré-treinamento quanto no pós-treinamento. Primeiro, para aprender características que capturam detalhes de baixo nível (para predição densa) e semântica de alto nível (para configurações de *zero-shot* ou poucos rótulos), combinamos a reconstrução de imagem mascarada com objetivos contrastivos auto-destilados. Nossas avaliações mostram que este objetivo de pré-treinamento unificado é mais adequado para uma gama mais ampla de tarefas subsequentes. Segundo, no eixo dos dados, realizamos o pré-treinamento em um conjunto de dados curado de 1 bilhão de imagens humanas de alta qualidade e melhoramos a qualidade e a quantidade das anotações de tarefas. Terceiro, em termos arquiteturais, incorporamos avanços de modelos de fronteira que permitem cronogramas de treinamento mais longos com maior estabilidade. Nossos modelos 4K adotam atenção com janelas para raciocinar sobre contextos espaciais mais longos e são pré-treinados com resolução de saída de 2K. A Sapiens2 estabelece um novo estado da arte e supera a primeira geração em pose (+4 mAP), segmentação de partes do corpo (+24,3 mIoU), estimativa de normais (45,6% menor erro angular) e se estende a novas tarefas, como estimativa de *pointmap* e *albedo*. Código: https://github.com/facebookresearch/sapiens2

English

We present Sapiens2, a model family of high-resolution transformers for human-centric vision focused on generalization, versatility, and high-fidelity outputs. Our model sizes range from 0.4 to 5 billion parameters, with native 1K resolution and hierarchical variants that support 4K. Sapiens2 substantially improves over its predecessor in both pretraining and post-training. First, to learn features that capture low-level details (for dense prediction) and high-level semantics (for zero-shot or few-label settings), we combine masked image reconstruction with self-distilled contrastive objectives. Our evaluations show that this unified pretraining objective is better suited for a wider range of downstream tasks. Second, along the data axis, we pretrain on a curated dataset of 1 billion high-quality human images and improve the quality and quantity of task annotations. Third, architecturally, we incorporate advances from frontier models that enable longer training schedules with improved stability. Our 4K models adopt windowed attention to reason over longer spatial context and are pretrained with 2K output resolution. Sapiens2 sets a new state-of-the-art and improves over the first generation on pose (+4 mAP), body-part segmentation (+24.3 mIoU), normal estimation (45.6% lower angular error) and extends to new tasks such as pointmap and albedo estimation. Code: https://github.com/facebookresearch/sapiens2