Human3R: Todos em Todos os Lugares ao Mesmo Tempo
Human3R: Everyone Everywhere All at Once
October 7, 2025
Autores: Yue Chen, Xingyu Chen, Yuxuan Xue, Anpei Chen, Yuliang Xiu, Gerard Pons-Moll
cs.AI
Resumo
Apresentamos o Human3R, um framework unificado e feed-forward para reconstrução 4D online de humanos e cenas, no quadro de referência mundial, a partir de vídeos monoculares capturados casualmente. Diferente de abordagens anteriores que dependem de pipelines multiestágios, refinamento iterativo com consciência de contato entre humanos e cenas, e dependências pesadas, como detecção humana, estimativa de profundidade e pré-processamento SLAM, o Human3R recupera conjuntamente corpos SMPL-X globais de múltiplas pessoas ("todos"), cenas 3D densas ("em todos os lugares") e trajetórias da câmera em uma única passada direta ("tudo de uma vez"). Nosso método é baseado no modelo de reconstrução 4D online CUT3R e utiliza ajuste eficiente de parâmetros por prompt visual, visando preservar os ricos priors espaço-temporais do CUT3R, enquanto permite a leitura direta de múltiplos corpos SMPL-X. O Human3R é um modelo unificado que elimina dependências pesadas e refinamento iterativo. Após ser treinado no conjunto de dados sintético de pequena escala BEDLAM por apenas um dia em uma GPU, ele alcança desempenho superior com eficiência notável: reconstrói múltiplos humanos de forma única, juntamente com cenas 3D, em um único estágio, em tempo real (15 FPS) com baixo consumo de memória (8 GB). Experimentos extensivos demonstram que o Human3R oferece desempenho de ponta ou competitivo em diversas tarefas, incluindo estimativa global de movimento humano, recuperação local de malha humana, estimativa de profundidade em vídeo e estimativa de pose da câmera, com um único modelo unificado. Esperamos que o Human3R sirva como uma linha de base simples, porém robusta, e seja facilmente estendido para aplicações downstream. Código disponível em https://fanegg.github.io/Human3R.
English
We present Human3R, a unified, feed-forward framework for online 4D
human-scene reconstruction, in the world frame, from casually captured
monocular videos. Unlike previous approaches that rely on multi-stage
pipelines, iterative contact-aware refinement between humans and scenes, and
heavy dependencies, e.g., human detection, depth estimation, and SLAM
pre-processing, Human3R jointly recovers global multi-person SMPL-X bodies
("everyone"), dense 3D scene ("everywhere"), and camera trajectories in a
single forward pass ("all-at-once"). Our method builds upon the 4D online
reconstruction model CUT3R, and uses parameter-efficient visual prompt tuning,
to strive to preserve CUT3R's rich spatiotemporal priors, while enabling direct
readout of multiple SMPL-X bodies. Human3R is a unified model that eliminates
heavy dependencies and iterative refinement. After being trained on the
relatively small-scale synthetic dataset BEDLAM for just one day on one GPU, it
achieves superior performance with remarkable efficiency: it reconstructs
multiple humans in a one-shot manner, along with 3D scenes, in one stage, at
real-time speed (15 FPS) with a low memory footprint (8 GB). Extensive
experiments demonstrate that Human3R delivers state-of-the-art or competitive
performance across tasks, including global human motion estimation, local human
mesh recovery, video depth estimation, and camera pose estimation, with a
single unified model. We hope that Human3R will serve as a simple yet strong
baseline, be easily extended for downstream applications.Code available in
https://fanegg.github.io/Human3R