Human3R: Todos em Todos os Lugares ao Mesmo Tempo

Resumo

Apresentamos o Human3R, um framework unificado e feed-forward para reconstrução 4D online de humanos e cenas, no quadro de referência mundial, a partir de vídeos monoculares capturados casualmente. Diferente de abordagens anteriores que dependem de pipelines multiestágios, refinamento iterativo com consciência de contato entre humanos e cenas, e dependências pesadas, como detecção humana, estimativa de profundidade e pré-processamento SLAM, o Human3R recupera conjuntamente corpos SMPL-X globais de múltiplas pessoas ("todos"), cenas 3D densas ("em todos os lugares") e trajetórias da câmera em uma única passada direta ("tudo de uma vez"). Nosso método é baseado no modelo de reconstrução 4D online CUT3R e utiliza ajuste eficiente de parâmetros por prompt visual, visando preservar os ricos priors espaço-temporais do CUT3R, enquanto permite a leitura direta de múltiplos corpos SMPL-X. O Human3R é um modelo unificado que elimina dependências pesadas e refinamento iterativo. Após ser treinado no conjunto de dados sintético de pequena escala BEDLAM por apenas um dia em uma GPU, ele alcança desempenho superior com eficiência notável: reconstrói múltiplos humanos de forma única, juntamente com cenas 3D, em um único estágio, em tempo real (15 FPS) com baixo consumo de memória (8 GB). Experimentos extensivos demonstram que o Human3R oferece desempenho de ponta ou competitivo em diversas tarefas, incluindo estimativa global de movimento humano, recuperação local de malha humana, estimativa de profundidade em vídeo e estimativa de pose da câmera, com um único modelo unificado. Esperamos que o Human3R sirva como uma linha de base simples, porém robusta, e seja facilmente estendido para aplicações downstream. Código disponível em https://fanegg.github.io/Human3R.

English

We present Human3R, a unified, feed-forward framework for online 4D human-scene reconstruction, in the world frame, from casually captured monocular videos. Unlike previous approaches that rely on multi-stage pipelines, iterative contact-aware refinement between humans and scenes, and heavy dependencies, e.g., human detection, depth estimation, and SLAM pre-processing, Human3R jointly recovers global multi-person SMPL-X bodies ("everyone"), dense 3D scene ("everywhere"), and camera trajectories in a single forward pass ("all-at-once"). Our method builds upon the 4D online reconstruction model CUT3R, and uses parameter-efficient visual prompt tuning, to strive to preserve CUT3R's rich spatiotemporal priors, while enabling direct readout of multiple SMPL-X bodies. Human3R is a unified model that eliminates heavy dependencies and iterative refinement. After being trained on the relatively small-scale synthetic dataset BEDLAM for just one day on one GPU, it achieves superior performance with remarkable efficiency: it reconstructs multiple humans in a one-shot manner, along with 3D scenes, in one stage, at real-time speed (15 FPS) with a low memory footprint (8 GB). Extensive experiments demonstrate that Human3R delivers state-of-the-art or competitive performance across tasks, including global human motion estimation, local human mesh recovery, video depth estimation, and camera pose estimation, with a single unified model. We hope that Human3R will serve as a simple yet strong baseline, be easily extended for downstream applications.Code available in https://fanegg.github.io/Human3R

Human3R: Todos em Todos os Lugares ao Mesmo Tempo

Human3R: Everyone Everywhere All at Once

Resumo

Support